論文の概要: Guided Attention for Interpretable Motion Captioning
- arxiv url: http://arxiv.org/abs/2310.07324v1
- Date: Wed, 11 Oct 2023 09:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:35:31.525231
- Title: Guided Attention for Interpretable Motion Captioning
- Title(参考訳): 解釈可能なモーションキャプションのためのガイド注意
- Authors: Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde
- Abstract要約: 本研究では,運動エンコーダと身体部位の注意モデルの組み合わせについて検討し,トレーニング中の注意を導くための戦略を提案する。
適応ゲートで誘導注意を付加するとキャプションが解釈可能となり,パラメータ数非解釈可能なSOTAシステムに比べて性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While much effort has been invested in generating human motion from text,
relatively few studies have been dedicated to the reverse direction, that is,
generating text from motion. Much of the research focuses on maximizing
generation quality without any regard for the interpretability of the
architectures, particularly regarding the influence of particular body parts in
the generation and the temporal synchronization of words with specific
movements and actions. This study explores the combination of movement encoders
with spatio-temporal attention models and proposes strategies to guide the
attention during training to highlight perceptually pertinent areas of the
skeleton in time. We show that adding guided attention with adaptive gate leads
to interpretable captioning while improving performance compared to higher
parameter-count non-interpretable SOTA systems. On the KIT MLD dataset, we
obtain a BLEU@4 of 24.4% (SOTA+6%), a ROUGE-L of 58.30% (SOTA +14.1%), a CIDEr
of 112.10 (SOTA +32.6) and a Bertscore of 41.20% (SOTA +18.20%). On HumanML3D,
we obtain a BLEU@4 of 25.00 (SOTA +2.7%), a ROUGE-L score of 55.4% (SOTA
+6.1%), a CIDEr of 61.6 (SOTA -10.9%), a Bertscore of 40.3% (SOTA +2.5%). Our
code implementation and reproduction details will be soon available at
https://github.com/rd20karim/M2T-Interpretable/tree/main.
- Abstract(参考訳): テキストから人間の動きを生成することに多くの労力が費やされてきたが、逆方向、すなわち動きからテキストを生成する研究は、比較的少ない。
研究の多くは、特に特定の動きや動作を伴う単語の生成と時間的同期における特定の身体部分の影響について、アーキテクチャの解釈可能性に何ら関係なく、世代品質を最大化することに焦点を当てている。
本研究では,運動エンコーダと時空間的注意モデルの組み合わせについて検討し,トレーニング中に注意を誘導し,時間内に骨格の知覚的関連領域を明らかにする戦略を提案する。
適応ゲートで誘導注意を付加するとキャプションが解釈可能となり,パラメータカウント非解釈可能なSOTAシステムに比べて性能が向上することを示す。
KIT MLDデータセットでは、BLEU@4は24.4%(SOTA+6%)、ROUGE-Lは58.30%(SOTA+14.1%)、CIDErは112.10(SOTA+32.6)、Bertscoreは41.20%(SOTA+18.20%)である。
HumanML3Dでは、BLEU@4が25.00(SOTA + 2.7%)、ROUGE-Lが55.4%(SOTA + 6.1%)、CIDErが61.6(SOTA -10.9%)、Bertscoreが40.3%(SOTA + 2.5%)である。
私たちのコードの実装と再現の詳細は、https://github.com/rd20karim/M2T-Interpretable/tree/main.orgですぐに公開されます。
関連論文リスト
- FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks [89.1896982106731]
FocusCLIPは、人中心タスクにおけるゼロショット転送を改善するために、主題レベルのガイダンスをCLIPフレームワークに統合する。
人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。
論文 参考訳(メタデータ) (2024-03-11T16:56:37Z) - Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts [0.0]
我々は,紀元前300年から900年までの約2500の文からなる,性意味論を含む新しいコーパスを紹介した。
我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:21:25Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。