論文の概要: TriC-Motion: Tri-Domain Causal Modeling Grounded Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2602.08462v1
- Date: Mon, 09 Feb 2026 10:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.162588
- Title: TriC-Motion: Tri-Domain Causal Modeling Grounded Text-to-Motion Generation
- Title(参考訳): TriC-Motion:Tri-Domain Causal Modeling Grounded Text-to-Motion Generation
- Authors: Yiyang Cao, Yunze Deng, Ziyu Lin, Bin Feng, Xinggang Wang, Wenyu Liu, Dandan Zheng, Jingdong Chen,
- Abstract要約: Tri-Domain Causal Text-to-Motion Generation (TriC-Motion)は、空間ドメインモデリングと因果介入を統合した新しい拡散ベースのフレームワークである。
TriC-Motionは、HumanML3Dデータセット上で0.612の優れたR@1を達成することによって、最先端の手法よりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 61.94780858309546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation, a rapidly evolving field in computer vision, aims to produce realistic and text-aligned motion sequences. Current methods primarily focus on spatial-temporal modeling or independent frequency domain analysis, lacking a unified framework for joint optimization across spatial, temporal, and frequency domains. This limitation hinders the model's ability to leverage information from all domains simultaneously, leading to suboptimal generation quality. Additionally, in motion generation frameworks, motion-irrelevant cues caused by noise are often entangled with features that contribute positively to generation, thereby leading to motion distortion. To address these issues, we propose Tri-Domain Causal Text-to-Motion Generation (TriC-Motion), a novel diffusion-based framework integrating spatial-temporal-frequency-domain modeling with causal intervention. TriC-Motion includes three core modeling modules for domain-specific modeling, namely Temporal Motion Encoding, Spatial Topology Modeling, and Hybrid Frequency Analysis. After comprehensive modeling, a Score-guided Tri-domain Fusion module integrates valuable information from the triple domains, simultaneously ensuring temporal consistency, spatial topology, motion trends, and dynamics. Moreover, the Causality-based Counterfactual Motion Disentangler is meticulously designed to expose motion-irrelevant cues to eliminate noise, disentangling the real modeling contributions of each domain for superior generation. Extensive experimental results validate that TriC-Motion achieves superior performance compared to state-of-the-art methods, attaining an outstanding R@1 of 0.612 on the HumanML3D dataset. These results demonstrate its capability to generate high-fidelity, coherent, diverse, and text-aligned motion sequences. Code is available at: https://caoyiyang1105.github.io/TriC-Motion/.
- Abstract(参考訳): コンピュータビジョンの急速に発展する分野であるテキスト・トゥ・モーション・ジェネレーションは、現実的でテキスト・アラインな動き系列を生成することを目的としている。
現在の手法は主に空間時間モデルや独立周波数領域解析に重点を置いており、空間領域、時間領域、周波数領域をまたいだ共同最適化のための統一的な枠組みが欠如している。
この制限は、モデルがすべてのドメインからの情報を同時に活用する能力を妨げ、最適以下の生成品質をもたらす。
さらに、運動生成フレームワークでは、ノイズによって生じる動き非関連の手がかりは、しばしば、生成に肯定的に寄与する特徴と絡み合わされ、運動歪みにつながる。
これらの課題に対処するために,空間時間周波数ドメインモデリングと因果介入を組み合わせた新しい拡散型フレームワークであるTriC-Motion(TriC-Motion)を提案する。
TriC-Motionにはドメイン固有モデリングのための3つのコアモデリングモジュール、テンポラルモーションエンコーディング、空間トポロジーモデリング、ハイブリッド周波数分析が含まれる。
包括的なモデリングの後、スコア誘導三領域融合モジュールは三重ドメインからの貴重な情報を統合し、時間的一貫性、空間的トポロジー、動きの傾向、ダイナミクスを同時に保証する。
さらに、因果性に基づく対物運動遠心分離器は、ノイズを除去するために動き非関連な手がかりを公開するように細心の注意を払って設計されており、各領域の実際のモデリング貢献をより優れた世代のために切り離している。
TriC-Motionは,HumanML3Dデータセット上で0.612の優れたR@1を達成し,最先端の手法と比較して優れた性能を達成できることを確認した。
これらの結果は,高忠実度,コヒーレント,多種多様,テキスト対応の動作シーケンスを生成する能力を示す。
コードは、https://caoyiyang1105.github.io/TriC-Motion/で入手できる。
関連論文リスト
- Scalable Spatio-Temporal SE(3) Diffusion for Long-Horizon Protein Dynamics [51.85385061275941]
分子動力学(MD)シミュレーションは、タンパク質動力学研究のゴールドスタンダードのままである。
近年の生成モデルではシミュレーションの加速が期待できるが、長軸生成に苦慮している。
物理的に可塑性なタンパク質軌道をマイクロスケールの時間スケールで生成する拡張拡散モデルSTAR-MDを提案する。
論文 参考訳(メタデータ) (2026-02-02T14:13:28Z) - Geometric Neural Distance Fields for Learning Human Motion Priors [51.99890740169883]
本研究では,より頑健で時間的に整合性があり,物理的に妥当な3次元運動回復を可能にする新しい3D生成人体運動について紹介する。
AMASSデータセットをトレーニングし、NRMFは複数の入力モードにまたがって著しく一般化する。
論文 参考訳(メタデータ) (2025-09-11T17:58:18Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling [10.914612535745789]
本稿では,MoCo-NeRF(MoCo-NeRF)について述べる。
MoCo-NeRFはモノクロビデオのフリービューポイントレンダリングを実現するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-07-16T17:59:01Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。