論文の概要: Guided Attention for Interpretable Motion Captioning
- arxiv url: http://arxiv.org/abs/2310.07324v1
- Date: Wed, 11 Oct 2023 09:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:35:31.525231
- Title: Guided Attention for Interpretable Motion Captioning
- Title(参考訳): 解釈可能なモーションキャプションのためのガイド注意
- Authors: Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde
- Abstract要約: 本研究では,運動エンコーダと身体部位の注意モデルの組み合わせについて検討し,トレーニング中の注意を導くための戦略を提案する。
適応ゲートで誘導注意を付加するとキャプションが解釈可能となり,パラメータ数非解釈可能なSOTAシステムに比べて性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While much effort has been invested in generating human motion from text,
relatively few studies have been dedicated to the reverse direction, that is,
generating text from motion. Much of the research focuses on maximizing
generation quality without any regard for the interpretability of the
architectures, particularly regarding the influence of particular body parts in
the generation and the temporal synchronization of words with specific
movements and actions. This study explores the combination of movement encoders
with spatio-temporal attention models and proposes strategies to guide the
attention during training to highlight perceptually pertinent areas of the
skeleton in time. We show that adding guided attention with adaptive gate leads
to interpretable captioning while improving performance compared to higher
parameter-count non-interpretable SOTA systems. On the KIT MLD dataset, we
obtain a BLEU@4 of 24.4% (SOTA+6%), a ROUGE-L of 58.30% (SOTA +14.1%), a CIDEr
of 112.10 (SOTA +32.6) and a Bertscore of 41.20% (SOTA +18.20%). On HumanML3D,
we obtain a BLEU@4 of 25.00 (SOTA +2.7%), a ROUGE-L score of 55.4% (SOTA
+6.1%), a CIDEr of 61.6 (SOTA -10.9%), a Bertscore of 40.3% (SOTA +2.5%). Our
code implementation and reproduction details will be soon available at
https://github.com/rd20karim/M2T-Interpretable/tree/main.
- Abstract(参考訳): テキストから人間の動きを生成することに多くの労力が費やされてきたが、逆方向、すなわち動きからテキストを生成する研究は、比較的少ない。
研究の多くは、特に特定の動きや動作を伴う単語の生成と時間的同期における特定の身体部分の影響について、アーキテクチャの解釈可能性に何ら関係なく、世代品質を最大化することに焦点を当てている。
本研究では,運動エンコーダと時空間的注意モデルの組み合わせについて検討し,トレーニング中に注意を誘導し,時間内に骨格の知覚的関連領域を明らかにする戦略を提案する。
適応ゲートで誘導注意を付加するとキャプションが解釈可能となり,パラメータカウント非解釈可能なSOTAシステムに比べて性能が向上することを示す。
KIT MLDデータセットでは、BLEU@4は24.4%(SOTA+6%)、ROUGE-Lは58.30%(SOTA+14.1%)、CIDErは112.10(SOTA+32.6)、Bertscoreは41.20%(SOTA+18.20%)である。
HumanML3Dでは、BLEU@4が25.00(SOTA + 2.7%)、ROUGE-Lが55.4%(SOTA + 6.1%)、CIDErが61.6(SOTA -10.9%)、Bertscoreが40.3%(SOTA + 2.5%)である。
私たちのコードの実装と再現の詳細は、https://github.com/rd20karim/M2T-Interpretable/tree/main.orgですぐに公開されます。
関連論文リスト
- LEAD: Latent Realignment for Human Motion Diffusion [12.40712030002265]
私たちのゴールは、自然言語から現実的な人間の動きを作り出すことです。
動作合成では,HumanML3DおよびKIT-ML上でLEADを評価し,現実主義,多様性,テキストモーションの整合性の観点から,最先端技術に匹敵する性能を示す。
動作テキストの逆変換では,従来のVAEと比較して分布外特性を捕捉する能力が改善された。
論文 参考訳(メタデータ) (2024-10-18T14:43:05Z) - Chronologically Accurate Retrieval for Temporal Grounding of Motion-Language Models [12.221087476416056]
本研究では,動作言語モデルの時系列的理解を評価するために,時間的精度の高い検索手法を提案する。
テキスト記述をイベントに分解し、複合動作記述におけるイベントの順序をシャッフルすることで、負のテキストサンプルを作成する。
次に、動作言語モデルのための簡単なタスクを設計し、より可能性の高いテキストを、真実と時系列的にシャッフルされたバージョンから検索する。
論文 参考訳(メタデータ) (2024-07-22T06:25:21Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Semantics-aware Motion Retargeting with Vision-Language Models [19.53696208117539]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
我々は3次元動作のレンダリングに微分可能モジュールを使用し、視覚言語モデルに入力し、抽出したセマンティック埋め込みを整合させることにより、高レベルなモーションセマンティクスを動作プロセスに組み込む。
微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため、スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases [59.32509533292653]
動作理解は、動作意味論と行動意味論の信頼性の高いマッピングを確立することを目的としている。
本研究では,人間の動作の客観的な運動事実を適切な抽象化,解釈可能性,一般性で捉えたキネマティック・フェース(KP)を提案する。
KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。
論文 参考訳(メタデータ) (2023-10-06T12:08:15Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。