論文の概要: Guided Attention for Interpretable Motion Captioning
- arxiv url: http://arxiv.org/abs/2310.07324v2
- Date: Tue, 3 Sep 2024 13:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:24:42.223809
- Title: Guided Attention for Interpretable Motion Captioning
- Title(参考訳): 解釈可能なモーションキャプションのためのガイドアテンション
- Authors: Karim Radouane, Julien Lagarde, Sylvie Ranwez, Andon Tchechmedjiev,
- Abstract要約: 本稿では,解釈可能性を重視してテキスト生成品質を向上させる新しいアーキテクチャを提案する。
そこで本研究では,人間ライクな推論を促すために,トレーニング中の注意を導く方法を提案する。
我々は解釈可能性を活用して人間の動きに関するきめ細かい情報を導き出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse and extensive work has recently been conducted on text-conditioned human motion generation. However, progress in the reverse direction, motion captioning, has seen less comparable advancement. In this paper, we introduce a novel architecture design that enhances text generation quality by emphasizing interpretability through spatio-temporal and adaptive attention mechanisms. To encourage human-like reasoning, we propose methods for guiding attention during training, emphasizing relevant skeleton areas over time and distinguishing motion-related words. We discuss and quantify our model's interpretability using relevant histograms and density distributions. Furthermore, we leverage interpretability to derive fine-grained information about human motion, including action localization, body part identification, and the distinction of motion-related words. Finally, we discuss the transferability of our approaches to other tasks. Our experiments demonstrate that attention guidance leads to interpretable captioning while enhancing performance compared to higher parameter-count, non-interpretable state-of-the-art systems. The code is available at: https://github.com/rd20karim/M2T-Interpretable.
- Abstract(参考訳): 近年,テキスト・コンディショニングによるヒューマン・モーション・ジェネレーションの研究が盛んに行われている。
しかし、逆方向の進行、つまりモーションキャプションは、同等の進歩は見られない。
本稿では,時空間的・適応的な注意機構を通じて解釈可能性を強調することによって,テキスト生成品質を向上させる新しいアーキテクチャ設計を提案する。
そこで本研究では,人為的な推論を促進するために,トレーニング中の注意を誘導し,時間とともに関連する骨格領域を強調し,動きに関連した単語を区別する手法を提案する。
我々は,関係するヒストグラムと密度分布を用いて,モデルの解釈可能性について議論し,定量化する。
さらに,動作の局所化,身体部分の識別,動作関連単語の識別など,人間の動作に関する詳細な情報を得るために,解釈可能性を活用する。
最後に、他のタスクへのアプローチの転送可能性について論じる。
本実験は,高パラメータ数非解釈型システムと比較して,注意誘導がキャプションの解釈に寄与し,性能が向上することを示した。
コードは、https://github.com/rd20karim/M2T-Interpretable.comで入手できる。
関連論文リスト
- LEAD: Latent Realignment for Human Motion Diffusion [12.40712030002265]
私たちのゴールは、自然言語から現実的な人間の動きを作り出すことです。
動作合成では,HumanML3DおよびKIT-ML上でLEADを評価し,現実主義,多様性,テキストモーションの整合性の観点から,最先端技術に匹敵する性能を示す。
動作テキストの逆変換では,従来のVAEと比較して分布外特性を捕捉する能力が改善された。
論文 参考訳(メタデータ) (2024-10-18T14:43:05Z) - Chronologically Accurate Retrieval for Temporal Grounding of Motion-Language Models [12.221087476416056]
本研究では,動作言語モデルの時系列的理解を評価するために,時間的精度の高い検索手法を提案する。
テキスト記述をイベントに分解し、複合動作記述におけるイベントの順序をシャッフルすることで、負のテキストサンプルを作成する。
次に、動作言語モデルのための簡単なタスクを設計し、より可能性の高いテキストを、真実と時系列的にシャッフルされたバージョンから検索する。
論文 参考訳(メタデータ) (2024-07-22T06:25:21Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Semantics-aware Motion Retargeting with Vision-Language Models [19.53696208117539]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
我々は3次元動作のレンダリングに微分可能モジュールを使用し、視覚言語モデルに入力し、抽出したセマンティック埋め込みを整合させることにより、高レベルなモーションセマンティクスを動作プロセスに組み込む。
微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため、スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases [59.32509533292653]
動作理解は、動作意味論と行動意味論の信頼性の高いマッピングを確立することを目的としている。
本研究では,人間の動作の客観的な運動事実を適切な抽象化,解釈可能性,一般性で捉えたキネマティック・フェース(KP)を提案する。
KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。
論文 参考訳(メタデータ) (2023-10-06T12:08:15Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。