論文の概要: Exploring Motion-Language Alignment for Text-driven Motion Generation
- arxiv url: http://arxiv.org/abs/2604.02973v1
- Date: Fri, 03 Apr 2026 11:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.459231
- Title: Exploring Motion-Language Alignment for Text-driven Motion Generation
- Title(参考訳): テキスト駆動型動き生成のための動き言語アライメントの探索
- Authors: Ruxi Gu, Zilei Wang, Wei Wang,
- Abstract要約: そこで本研究では,グローバルな動きの事前処理と局所条件の微粒化を統合したフレームワークを提案する。
この設計により、モデルが一般的な動きパターンをキャプチャし、テキストと動きの詳細なアライメントを確立することができる。
- 参考スコア(独自算出の注目度): 40.39333668557699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven human motion generation aims to synthesize realistic motion sequences that follow textual descriptions. Despite recent advances, accurately aligning motion dynamics with textual semantics remains a fundamental challenge. In this paper, we revisit text-to-motion generation from the perspective of motion-language alignment and propose MLA-Gen, a framework that integrates global motion priors with fine-grained local conditioning. This design enables the model to capture common motion patterns, while establishing detailed alignment between texts and motions. Furthermore, we identify a previously overlooked attention sink phenomenon in human motion generation, where attention disproportionately concentrates on the start text token, limiting the utilization of informative textual cues and leading to degraded semantic grounding. To analyze this issue, we introduce SinkRatio, a metric for measuring attention concentration, and develop alignment-aware masking and control strategies to regulate attention during generation. Extensive experiments demonstrate that our approach consistently improves both motion quality and motion-language alignment over strong baselines. Code will be released upon acceptance.
- Abstract(参考訳): テキスト駆動型ヒューマンモーション生成は、テキスト記述に従うリアルなモーションシーケンスを合成することを目的としている。
近年の進歩にもかかわらず、運動力学とテキスト意味論を正確に整合させることが根本的な課題である。
本稿では、動き言語アライメントの観点からテキスト・トゥ・モーション生成を再考し、グローバル・モーション・プレッシャと微粒なローカル・コンディショニングを統合したフレームワークであるMLA-Genを提案する。
この設計により、モデルが一般的な動きパターンをキャプチャし、テキストと動きの詳細なアライメントを確立することができる。
さらに,人間の動作生成において,これまで見過ごされていた注目シンク現象を識別し,注目は開始テキストトークンに集中し,情報的テキストキューの利用を制限し,劣化したセマンティックグラウンドを実現する。
この問題を解析するために、注意集中度を測定する指標であるSinkRatioを導入し、アライメント対応マスキングと制御戦略を開発し、世代間の注意を調節する。
広汎な実験により,強いベースライン上での運動品質と動き言語アライメントを一貫して改善することが示された。
コードは受理時にリリースされる。
関連論文リスト
- Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - Text-driven Motion Generation: Overview, Challenges and Directions [5.292618442300405]
テキスト駆動モーション生成は、自然言語から直接人間の動きを生成する、強力で直感的な方法を提供する。
これは、仮想現実、ゲーム、人間とコンピュータのインタラクション、ロボット工学などの分野で特に有用である。
この分野が現在どこにあるのかを把握し、重要な課題や限界に注意を向け、将来の探査に向けた有望な方向性を明らかにすることを目指しています。
論文 参考訳(メタデータ) (2025-05-14T13:33:12Z) - CASIM: Composite Aware Semantic Injection for Text to Motion Generation [15.53049009014166]
テキストとモーショントークンの動的対応を学習する複合認識型セマンティックインジェクション機構を提案する。
HumanML3DとKITベンチマークの実験では、CASIMは動きの質、テキスト・モーションアライメント、検索スコアを一貫して改善している。
論文 参考訳(メタデータ) (2025-02-04T07:22:07Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Chronologically Accurate Retrieval for Temporal Grounding of Motion-Language Models [12.221087476416056]
本研究では,動作言語モデルの時系列的理解を評価するために,時間的精度の高い検索手法を提案する。
テキスト記述をイベントに分解し、複合動作記述におけるイベントの順序をシャッフルすることで、負のテキストサンプルを作成する。
次に、動作言語モデルのための簡単なタスクを設計し、より可能性の高いテキストを、真実と時系列的にシャッフルされたバージョンから検索する。
論文 参考訳(メタデータ) (2024-07-22T06:25:21Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - HumanTOMATO: Text-aligned Whole-body Motion Generation [30.729975715600627]
本研究は,新しいテキスト駆動型全身運動生成タスクを目標とする。
高品質で多様な、一貫性のある表情、手のジェスチャー、身体の動きを同時に生成することを目的としている。
論文 参考訳(メタデータ) (2023-10-19T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。