論文の概要: Think Before You Move: Latent Motion Reasoning for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2512.24100v1
- Date: Tue, 30 Dec 2025 09:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.341275
- Title: Think Before You Move: Latent Motion Reasoning for Text-to-Motion Generation
- Title(参考訳): 動く前に考える:テキスト・トゥ・モーション・ジェネレーションのための潜在モーション・推論
- Authors: Yijie Qian, Juncheng Wang, Yuxiang Feng, Chao Xu, Wang Lu, Yang Liu, Baigui Sun, Yiqiang Chen, Yong Liu, Shujun Wang,
- Abstract要約: この解決策は、遅延システム2推論へのアーキテクチャシフトにある、と我々は主張する。
本稿では,2段階のThink-then-Act決定プロセスとして生成を再構成する潜在動作推論(LMR)を提案する。
T2M-GPT(discrete)とMotionStreamer(continuous)の2つの代表的なベースラインに対して実装することで、LMRの汎用性を実証する。
- 参考スコア(独自算出の注目度): 37.496002022338395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art paradigms predominantly treat Text-to-Motion (T2M) generation as a direct translation problem, mapping symbolic language directly to continuous poses. While effective for simple actions, this System 1 approach faces a fundamental theoretical bottleneck we identify as the Semantic-Kinematic Impedance Mismatch: the inherent difficulty of grounding semantically dense, discrete linguistic intent into kinematically dense, high-frequency motion data in a single shot. In this paper, we argue that the solution lies in an architectural shift towards Latent System 2 Reasoning. Drawing inspiration from Hierarchical Motor Control in cognitive science, we propose Latent Motion Reasoning (LMR) that reformulates generation as a two-stage Think-then-Act decision process. Central to LMR is a novel Dual-Granularity Tokenizer that disentangles motion into two distinct manifolds: a compressed, semantically rich Reasoning Latent for planning global topology, and a high-frequency Execution Latent for preserving physical fidelity. By forcing the model to autoregressively reason (plan the coarse trajectory) before it moves (instantiates the frames), we effectively bridge the ineffability gap between language and physics. We demonstrate LMR's versatility by implementing it for two representative baselines: T2M-GPT (discrete) and MotionStreamer (continuous). Extensive experiments show that LMR yields non-trivial improvements in both semantic alignment and physical plausibility, validating that the optimal substrate for motion planning is not natural language, but a learned, motion-aligned concept space. Codes and demos can be found in \hyperlink{https://chenhaoqcdyq.github.io/LMR/}{https://chenhaoqcdyq.github.io/LMR/}
- Abstract(参考訳): 現在の最先端パラダイムは、テキスト・トゥ・モーション(T2M)生成を直接翻訳問題として扱い、シンボル言語を直接連続ポーズにマッピングする。
このシステム1のアプローチは単純な行動に有効であるが、セマンティック・キネマティック・インピーダンス・ミスマッチ(Semantic-Kinematic Impedance Mismatch)と呼ばれる基本的な理論的ボトルネックに直面している。
本稿では,この解決策が潜在システム2推論へのアーキテクチャシフトにあることを論じる。
認知科学における階層運動制御からインスピレーションを得た後続運動推論(LMR)を提案する。
LMRの中心は、運動を2つの異なる多様体に分解する新しいデュアル・グラニティ・トケナイザー(英語版)であり、これは、大域位相を計画するための圧縮された、意味的にリッチな推論ラテント(英語版)と、物理忠実性を保存するための高周波実行ラテント(英語版)である。
モデルに移動前に自己回帰的推論(粗い軌道を計画する)を強制することにより、言語と物理学の間の非効率性ギャップを効果的に橋渡しする。
T2M-GPT(discrete)とMotionStreamer(continuous)の2つの代表的なベースラインに対して実装することで、LMRの汎用性を実証する。
大規模な実験により、LMRは意味的アライメントと身体的可視性の両方において、非自明な改善をもたらすことが示され、運動計画のための最適な基質が自然言語ではなく、学習された動きに沿った概念空間であることを検証した。
コードとデモは \hyperlink{https://chenhaoqcdyq.github.io/LMR/}{https://chenhaoqcdyq.github.io/LMR/} で見ることができる。
関連論文リスト
- MoLingo: Motion-Language Alignment for Text-to-Motion Generation [50.33970522600594]
MoLingoはテキスト・トゥ・モーション(T2M)モデルであり、連続した潜伏空間で妄想することで現実的な人間の動きを生成する。
フレームレベルのテキストラベルで訓練された意味対応のモーションエンコーダを提案し,類似したテキストの意味を持つラテントが近づき続けるようにした。
また,シングルトークン条件とマルチトークンのクロスアテンションスキームを比較し,クロスアテンションがより優れた動きリアリズムとテキストモーションアライメントをもたらすことを発見した。
論文 参考訳(メタデータ) (2025-12-15T19:22:40Z) - ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment [48.894439350114396]
本稿では,バイリンガル・テキスト・トゥ・モーション生成モデルにおいて重要なベンチマークとなるバイリンガル・ヒューマン・モーション・データセットであるBiHumanML3Dを提案する。
また,バイリンガル・モーション・ディフュージョン・モデル (BiMD) を提案する。
提案手法は,既存の最先端手法と比較して,テキスト・モーションアライメントと動作品質を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-05-08T06:19:18Z) - KETA: Kinematic-Phrases-Enhanced Text-to-Motion Generation via Fine-grained Alignment [5.287416596074742]
最先端のT2M技術は主に拡散モデルを利用してテキストプロンプトをガイダンスとして動作を生成する。
与えられたテキストを複数の分解されたテキストに分解するKETAを言語モデルを用いて提案する。
実験により、KETAはベースモデルの両バックボーン、モーション拡散モデルにおいて、最大1.19倍、2.34倍のR精度とFID値を達成することが示された。
論文 参考訳(メタデータ) (2025-01-25T03:43:33Z) - Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases [59.32509533292653]
動作理解は、動作意味論と行動意味論の信頼性の高いマッピングを確立することを目的としている。
本研究では,人間の動作の客観的な運動事実を適切な抽象化,解釈可能性,一般性で捉えたキネマティック・フェース(KP)を提案する。
KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。
論文 参考訳(メタデータ) (2023-10-06T12:08:15Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。