論文の概要: T2M Mamba: Motion Periodicity-Saliency Coupling Approach for Stable Text-Driven Motion Generation
- arxiv url: http://arxiv.org/abs/2602.01352v1
- Date: Sun, 01 Feb 2026 17:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.732464
- Title: T2M Mamba: Motion Periodicity-Saliency Coupling Approach for Stable Text-Driven Motion Generation
- Title(参考訳): T2M Mamba: 安定なテキスト駆動動作生成のための動き周期-サーリエンシ結合手法
- Authors: Xingzu Zhan, Chen Xie, Honghang Chen, Yixun Lin, Xiaochun Mai,
- Abstract要約: アバターアニメーションやヒューマノイドロボットのインタラクションといった分野において、テキスト・トゥ・モーション・ジェネレーションが注目を集めている。
モデルは、動き周期性とサリエンシを独立した要因として扱い、それらの結合を見下ろし、長いシーケンスで生成のドリフトを引き起こす。
本稿では,この制限に対処するT2M Mambaを提案する。
- 参考スコア(独自算出の注目度): 3.6564162676635363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-motion generation, which converts motion language descriptions into coherent 3D human motion sequences, has attracted increasing attention in fields, such as avatar animation and humanoid robotic interaction. Though existing models have achieved significant fidelity, they still suffer from two core limitations: (i) They treat motion periodicity and keyframe saliency as independent factors, overlooking their coupling and causing generation drift in long sequences. (ii) They are fragile to semantically equivalent paraphrases, where minor synonym substitutions distort textual embeddings, propagating through the decoder and producing unstable or erroneous motions. In this work, we propose T2M Mamba to address these limitations by (i) proposing Periodicity-Saliency Aware Mamba, which utilizes novel algorithms for keyframe weight estimation via enhanced Density Peaks Clustering and motion periodicity estimation via FFT-accelerated autocorrelation to capture coupled dynamics with minimal computational overhead, and (ii) constructing a Periodic Differential Cross-modal Alignment Module (PDCAM) to enhance robust alignment of textual and motion embeddings. Extensive experiments on HumanML3D and KIT-ML datasets have been conducted, confirming the effectiveness of our approach, achieving an FID of 0.068 and consistent gains on all other metrics.
- Abstract(参考訳): 動き言語記述をコヒーレントな3次元モーションシーケンスに変換するテキスト・トゥ・モーション・ジェネレーションは、アバターアニメーションやヒューマノイド・ロボット・インタラクションといった分野において注目を集めている。
既存のモデルは大きな忠実さを達成しているが、それでも2つのコア制限に悩まされている。
一 動き周期性及びキーフレームのサリエンシを独立要因として扱い、結合性を見落とし、長いシーケンスで生成のドリフトを引き起こす。
(ii) 意味的に等価な言い回しに脆弱で、小さなシノニムがテキストの埋め込みを歪め、デコーダを通して伝播し、不安定または誤動作を生じさせる。
本研究では,これらの制限に対処するためにT2M Mambaを提案する。
i) FFT加速自己相関による高密度ピーククラスタリングと動き周期性推定によるキーフレーム重み推定のための新しいアルゴリズムを用いた周期性アウェア・マンバの提案と計算オーバーヘッドの最小化
(II) テキスト・モーション・埋め込みのロバストなアライメントを強化するために, 周期微分クロスモーダルアライメント・モジュール (PDCAM) を構築する。
HumanML3DとKIT-MLデータセットの大規模な実験が行われ、我々のアプローチの有効性を確認し、0.068のFIDを達成し、他のすべての指標に対して一貫した利得を得た。
関連論文リスト
- Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow [17.95248351806955]
マルチモーダルな2人動作生成のためのフレームワークであるDualFlowを紹介する。
テキスト、音楽、先行の動作シーケンスを含む様々な入力で動きを合成する。
時間的にコヒーレントでリズミカルに同期した動作を生成し、マルチモーダルな人間の動作生成において最先端の動作を設定する。
論文 参考訳(メタデータ) (2025-09-28T22:36:18Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - MotionGPT3: Human Motion as a Second Modality [28.616340011811843]
MotionGPT3は、理解と生成の両方のためのバイモーダルモーション言語モデルである。
共通注意を持つデュアルストリームトランスは、制御された双方向情報フローを実現しつつ、モダリティ固有の経路を保存する。
実験により、MotionGPT3はトレーニング損失の2倍高速収束、検証の最大4倍高速収束を実現している。
論文 参考訳(メタデータ) (2025-06-30T17:42:22Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。