論文の概要: Coordinate-Based Dual-Constrained Autoregressive Motion Generation
- arxiv url: http://arxiv.org/abs/2604.08088v1
- Date: Thu, 09 Apr 2026 11:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.874421
- Title: Coordinate-Based Dual-Constrained Autoregressive Motion Generation
- Title(参考訳): Coordinate-based Dual-Constrained Autoregressive Motion Generation
- Authors: Kang Ding, Hongsong Wang, Jie Gui, Liang Wang,
- Abstract要約: コーディネートに基づくDual-Constrained Autoregressive Motion Generation (CDAMD) という,柔軟で高忠実でセマンティックに忠実なテキスト・トゥ・モーション・フレームワークを提案する。
運動座標を入力として、CDAMDは自己回帰パラダイムに従い、拡散誘起多層パーセプトロンを利用して予測運動の忠実性を高める。
座標に基づく動き合成には限界があるため、テキスト・ツー・モーション生成とモーション編集の両面での新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 28.415421434583482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-motion generation has attracted increasing attention in the research community recently, with potential applications in animation, virtual reality, robotics, and human-computer interaction. Diffusion and autoregressive models are two popular and parallel research directions for text-to-motion generation. However, diffusion models often suffer from error amplification during noise prediction, while autoregressive models exhibit mode collapse due to motion discretization. To address these limitations, we propose a flexible, high-fidelity, and semantically faithful text-to-motion framework, named Coordinate-based Dual-constrained Autoregressive Motion Generation (CDAMD). With motion coordinates as input, CDAMD follows the autoregressive paradigm and leverages diffusion-inspired multi-layer perceptrons to enhance the fidelity of predicted motions. Furthermore, a Dual-Constrained Causal Mask is introduced to guide autoregressive generation, where motion tokens act as priors and are concatenated with textual encodings. Since there is limited work on coordinate-based motion synthesis, we establish new benchmarks for both text-to-motion generation and motion editing. Experimental results demonstrate that our approach achieves state-of-the-art performance in terms of both fidelity and semantic consistency on these benchmarks.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは、アニメーション、仮想現実、ロボティクス、人間とコンピュータのインタラクションなど、最近の研究コミュニティで注目を集めている。
拡散モデルと自己回帰モデルは、テキスト・トゥ・モーション・ジェネレーションのための2つの一般的かつ平行な研究方向である。
しかし、拡散モデルはしばしばノイズ予測時に誤差の増幅に悩まされるが、自己回帰モデルは運動の離散化によるモード崩壊を示す。
これらの制約に対処するために,コーディネートに基づくDual-Constrained Autoregressive Motion Generation (CDAMD) という,柔軟で高忠実で意味に忠実なテキスト・トゥ・モーション・フレームワークを提案する。
運動座標を入力として、CDAMDは自己回帰パラダイムに従い、拡散誘起多層パーセプトロンを利用して予測運動の忠実性を高める。
さらに、Dual-Constrained Causal Maskを導入して、動作トークンが先行として動作し、テキストエンコーディングと結合される自動回帰生成をガイドする。
座標に基づく動き合成には限界があるため、テキスト・ツー・モーション生成とモーション編集の両面での新しいベンチマークを確立する。
実験により,本手法は,これらのベンチマークにおける忠実度と意味的整合性の両方の観点から,最先端の性能を実現することを示す。
関連論文リスト
- PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition [42.434871160461206]
既存のモーションオートエンコーダは各フレームを1つのモノリシック潜在ベクトルに圧縮する。
PRISMを提示し、各課題に専用のコントリビューションで対処する。
本研究では,テキスト・ツー・モーション,ポーズ・コンディショニング,自己回帰的逐次生成,ナラティブ・モーション・コンポジションをシームレスに扱う単一動作生成基盤モデルを訓練する。
論文 参考訳(メタデータ) (2026-03-09T16:41:15Z) - Causal Motion Diffusion Models for Autoregressive Motion Generation [19.61051102039212]
因果運動拡散モデル(CMDM)は自己回帰運動生成のための統合されたフレームワークである。
CMDMはMAC-VAE(Motion-Language-Aligned Causal VAE)の上に構築され、動作シーケンスを時間的因果潜在表現にエンコードする。
HumanML3DとSnapMoGenの実験では、CMDMは、意味的忠実度と時間的滑らかさの両方において、既存の拡散モデルと自己回帰モデルより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-26T03:58:25Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow [17.95248351806955]
マルチモーダルな2人動作生成のためのフレームワークであるDualFlowを紹介する。
テキスト、音楽、先行の動作シーケンスを含む様々な入力で動きを合成する。
時間的にコヒーレントでリズミカルに同期した動作を生成し、マルチモーダルな人間の動作生成において最先端の動作を設定する。
論文 参考訳(メタデータ) (2025-09-28T22:36:18Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。