論文の概要: Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow
- arxiv url: http://arxiv.org/abs/2509.24099v1
- Date: Sun, 28 Sep 2025 22:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.630923
- Title: Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow
- Title(参考訳): 整流による多モードインタラクティブ・リアクティブ3次元運動生成
- Authors: Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera,
- Abstract要約: マルチモーダルな2人動作生成のためのフレームワークであるDualFlowを紹介する。
テキスト、音楽、先行の動作シーケンスを含む様々な入力で動きを合成する。
時間的にコヒーレントでリズミカルに同期した動作を生成し、マルチモーダルな人間の動作生成において最先端の動作を設定する。
- 参考スコア(独自算出の注目度): 17.95248351806955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic, context-aware two-person motion conditioned on diverse modalities remains a central challenge in computer graphics, animation, and human-computer interaction. We introduce DualFlow, a unified and efficient framework for multi-modal two-person motion generation. DualFlow conditions 3D motion synthesis on diverse inputs, including text, music, and prior motion sequences. Leveraging rectified flow, it achieves deterministic straight-line sampling paths between noise and data, reducing inference time and mitigating error accumulation common in diffusion-based models. To enhance semantic grounding, DualFlow employs a Retrieval-Augmented Generation (RAG) module that retrieves motion exemplars using music features and LLM-based text decompositions of spatial relations, body movements, and rhythmic patterns. We use contrastive objective that further strengthens alignment with conditioning signals and introduce synchronization loss that improves inter-person coordination. Extensive evaluations across text-to-motion, music-to-motion, and multi-modal interactive benchmarks show consistent gains in motion quality, responsiveness, and efficiency. DualFlow produces temporally coherent and rhythmically synchronized motions, setting state-of-the-art in multi-modal human motion generation.
- Abstract(参考訳): 多様なモダリティを条件とした現実的でコンテキスト対応の2人の動作を生成することは、コンピュータグラフィックス、アニメーション、人間とコンピュータの相互作用において、依然として中心的な課題である。
マルチモーダルな2人動作生成のための統合的で効率的なフレームワークであるDualFlowを紹介する。
DualFlowはテキスト、音楽、先行モーションシーケンスを含む多様な入力に対して3Dモーション合成を行う。
修正流れを利用して、ノイズとデータ間の決定論的直線サンプリングパスを達成し、推論時間を短縮し、拡散ベースモデルに共通する誤差の蓄積を緩和する。
セマンティックグラウンド化を強化するため、DualFlowでは、音楽の特徴とLLMに基づく空間関係、身体運動、リズムパターンのテキスト分解を用いて、動きの例を検索するRetrieval-Augmented Generation (RAG)モジュールを採用している。
我々は、コンディショニング信号とのアライメントをさらに強化し、対人協調を改善する同期損失を導入することを目的とした。
テキスト・ツー・モーション、音楽・ツー・モーション、マルチモーダル・インタラクティブ・ベンチマークにおける広範囲な評価は、動きの質、応答性、効率性が一貫した向上を示す。
DualFlowは、時間的にコヒーレントでリズミカルに同期された動作を生成し、マルチモーダルな人間のモーション生成において最先端の動作を設定する。
関連論文リスト
- T2M Mamba: Motion Periodicity-Saliency Coupling Approach for Stable Text-Driven Motion Generation [3.6564162676635363]
アバターアニメーションやヒューマノイドロボットのインタラクションといった分野において、テキスト・トゥ・モーション・ジェネレーションが注目を集めている。
モデルは、動き周期性とサリエンシを独立した要因として扱い、それらの結合を見下ろし、長いシーケンスで生成のドリフトを引き起こす。
本稿では,この制限に対処するT2M Mambaを提案する。
論文 参考訳(メタデータ) (2026-02-01T17:42:53Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - MotionGPT3: Human Motion as a Second Modality [28.616340011811843]
MotionGPT3は、理解と生成の両方のためのバイモーダルモーション言語モデルである。
共通注意を持つデュアルストリームトランスは、制御された双方向情報フローを実現しつつ、モダリティ固有の経路を保存する。
実験により、MotionGPT3はトレーニング損失の2倍高速収束、検証の最大4倍高速収束を実現している。
論文 参考訳(メタデータ) (2025-06-30T17:42:22Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - FlowMotion: Target-Predictive Conditional Flow Matching for Jitter-Reduced Text-Driven Human Motion Generation [0.6554326244334868]
FlowMotionは、人間の3Dモーション生成における目標運動をより正確に予測することに焦点を当てたトレーニング目標を組み込んでいる。
FlowMotionは最先端のジッタパフォーマンスを実現し、KITデータセットで最高のジッタ、HumanML3Dデータセットで2番目に高いジッタを実現している。
論文 参考訳(メタデータ) (2025-04-02T03:55:21Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。