論文の概要: Guided Attention for Interpretable Motion Captioning
- arxiv url: http://arxiv.org/abs/2310.07324v2
- Date: Tue, 3 Sep 2024 13:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:24:42.223809
- Title: Guided Attention for Interpretable Motion Captioning
- Title(参考訳): 解釈可能なモーションキャプションのためのガイドアテンション
- Authors: Karim Radouane, Julien Lagarde, Sylvie Ranwez, Andon Tchechmedjiev,
- Abstract要約: 本稿では,解釈可能性を重視してテキスト生成品質を向上させる新しいアーキテクチャを提案する。
そこで本研究では,人間ライクな推論を促すために,トレーニング中の注意を導く方法を提案する。
我々は解釈可能性を活用して人間の動きに関するきめ細かい情報を導き出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse and extensive work has recently been conducted on text-conditioned human motion generation. However, progress in the reverse direction, motion captioning, has seen less comparable advancement. In this paper, we introduce a novel architecture design that enhances text generation quality by emphasizing interpretability through spatio-temporal and adaptive attention mechanisms. To encourage human-like reasoning, we propose methods for guiding attention during training, emphasizing relevant skeleton areas over time and distinguishing motion-related words. We discuss and quantify our model's interpretability using relevant histograms and density distributions. Furthermore, we leverage interpretability to derive fine-grained information about human motion, including action localization, body part identification, and the distinction of motion-related words. Finally, we discuss the transferability of our approaches to other tasks. Our experiments demonstrate that attention guidance leads to interpretable captioning while enhancing performance compared to higher parameter-count, non-interpretable state-of-the-art systems. The code is available at: https://github.com/rd20karim/M2T-Interpretable.
- Abstract(参考訳): 近年,テキスト・コンディショニングによるヒューマン・モーション・ジェネレーションの研究が盛んに行われている。
しかし、逆方向の進行、つまりモーションキャプションは、同等の進歩は見られない。
本稿では,時空間的・適応的な注意機構を通じて解釈可能性を強調することによって,テキスト生成品質を向上させる新しいアーキテクチャ設計を提案する。
そこで本研究では,人為的な推論を促進するために,トレーニング中の注意を誘導し,時間とともに関連する骨格領域を強調し,動きに関連した単語を区別する手法を提案する。
我々は,関係するヒストグラムと密度分布を用いて,モデルの解釈可能性について議論し,定量化する。
さらに,動作の局所化,身体部分の識別,動作関連単語の識別など,人間の動作に関する詳細な情報を得るために,解釈可能性を活用する。
最後に、他のタスクへのアプローチの転送可能性について論じる。
本実験は,高パラメータ数非解釈型システムと比較して,注意誘導がキャプションの解釈に寄与し,性能が向上することを示した。
コードは、https://github.com/rd20karim/M2T-Interpretable.comで入手できる。
関連論文リスト
- FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks [89.1896982106731]
FocusCLIPは、人中心タスクにおけるゼロショット転送を改善するために、主題レベルのガイダンスをCLIPフレームワークに統合する。
人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。
論文 参考訳(メタデータ) (2024-03-11T16:56:37Z) - Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts [0.0]
我々は,紀元前300年から900年までの約2500の文からなる,性意味論を含む新しいコーパスを紹介した。
我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:21:25Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。