論文の概要: Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion
- arxiv url: http://arxiv.org/abs/2505.11013v1
- Date: Fri, 16 May 2025 09:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.382565
- Title: Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion
- Title(参考訳): マスク付き自己回帰拡散によるロバストかつ制御可能なテキスト・トゥ・モーションを目指して
- Authors: Zongye Zhang, Bohan Kong, Qingjie Liu, Yunhong Wang,
- Abstract要約: マスク付きモデリングと拡散過程を組み合わせて動きを生成する,ロバストな動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
- 参考スコア(独自算出の注目度): 33.9786226622757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D human motion from text descriptions remains challenging due to the diverse and complex nature of human motion. While existing methods excel within the training distribution, they often struggle with out-of-distribution motions, limiting their applicability in real-world scenarios. Existing VQVAE-based methods often fail to represent novel motions faithfully using discrete tokens, which hampers their ability to generalize beyond seen data. Meanwhile, diffusion-based methods operating on continuous representations often lack fine-grained control over individual frames. To address these challenges, we propose a robust motion generation framework MoMADiff, which combines masked modeling with diffusion processes to generate motion using frame-level continuous representations. Our model supports flexible user-provided keyframe specification, enabling precise control over both spatial and temporal aspects of motion synthesis. MoMADiff demonstrates strong generalization capability on novel text-to-motion datasets with sparse keyframes as motion prompts. Extensive experiments on two held-out datasets and two standard benchmarks show that our method consistently outperforms state-of-the-art models in motion quality, instruction fidelity, and keyframe adherence.
- Abstract(参考訳): テキスト記述から人間の3D動作を生成することは、人間の動作の多様で複雑な性質のため、依然として困難である。
既存のメソッドはトレーニングディストリビューション内では優れていますが、実際のシナリオで適用性を制限するために、アウト・オブ・ディストリビューション(out-of-distriion)の動作に苦労することが多いのです。
既存のVQVAEベースの手法では、離散トークンを使って新しい動きを忠実に表現することができないことが多い。
一方、連続表現に作用する拡散に基づく手法は、個々のフレームのきめ細かい制御を欠いていることが多い。
これらの課題に対処するために,マスク付きモデリングと拡散過程を組み合わせてフレームレベルの連続表現を用いた動きを生成する,ロバストな動き生成フレームワークMoMADiffを提案する。
我々のモデルは、フレキシブルなユーザが提供するキーフレーム仕様をサポートし、モーション合成の空間的側面と時間的側面の両方を正確に制御できる。
MoMADiffは、動きプロンプトとしてスパースキーフレームを持つ新しいテキスト-モーションデータセットに強力な一般化機能を示す。
2つのホールドアウトデータセットと2つの標準ベンチマークに対する大規模な実験により、我々の手法は動きの質、命令の忠実さ、キーフレームの忠実さにおいて、常に最先端のモデルより優れていることが示された。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion
Synthesis [21.57205701909026]
我々は,KeyFrames Collaborated を用いたテキスト駆動動作合成のための条件拡散モデル DiffKFC を提案する。
提案モデルでは, 意味的忠実度の観点から最先端のパフォーマンスを実現するが, より重要なことは, 退屈な労力を伴わずに細かなガイダンスによりアニメーターの要求を満たすことができることである。
論文 参考訳(メタデータ) (2023-05-23T07:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。