論文の概要: MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
- arxiv url: http://arxiv.org/abs/2508.19527v1
- Date: Wed, 27 Aug 2025 02:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.472089
- Title: MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
- Title(参考訳): MotionFlux: 正規化フローマッチングと優先アライメントによる効率的なテキストガイド運動生成
- Authors: Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu,
- Abstract要約: 仮想キャラクタとエンボディエージェントのアニメーションにはモーション生成が不可欠である。
TAPOとMotionFLUXは、セマンティック一貫性とモーション品質の両方において最先端のアプローチより優れている統一システムを形成する。
- 参考スコア(独自算出の注目度): 38.42799902378583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion generation is essential for animating virtual characters and embodied agents. While recent text-driven methods have made significant strides, they often struggle with achieving precise alignment between linguistic descriptions and motion semantics, as well as with the inefficiencies of slow, multi-step inference. To address these issues, we introduce TMR++ Aligned Preference Optimization (TAPO), an innovative framework that aligns subtle motion variations with textual modifiers and incorporates iterative adjustments to reinforce semantic grounding. To further enable real-time synthesis, we propose MotionFLUX, a high-speed generation framework based on deterministic rectified flow matching. Unlike traditional diffusion models, which require hundreds of denoising steps, MotionFLUX constructs optimal transport paths between noise distributions and motion spaces, facilitating real-time synthesis. The linearized probability paths reduce the need for multi-step sampling typical of sequential methods, significantly accelerating inference time without sacrificing motion quality. Experimental results demonstrate that, together, TAPO and MotionFLUX form a unified system that outperforms state-of-the-art approaches in both semantic consistency and motion quality, while also accelerating generation speed. The code and pretrained models will be released.
- Abstract(参考訳): 仮想キャラクタとエンボディエージェントのアニメーションにはモーション生成が不可欠である。
最近のテキスト駆動手法は大きな進歩を遂げているが、言語記述と動作意味論の正確な整合性を達成するのに苦慮し、遅くて多段階の推論の非効率さに苦慮することが多い。
これらの問題に対処するため,TMR++ Aligned Preference Optimization (TAPO)を導入した。
さらにリアルタイム合成を可能にするために,決定論的整流マッチングに基づく高速な生成フレームワークであるMotionFLUXを提案する。
何百ものデノゲーションステップを必要とする従来の拡散モデルとは異なり、MotionFLUXはノイズ分布と運動空間の間の最適な輸送経路を構築し、リアルタイム合成を容易にする。
線形化確率パスは、シーケンシャル手法の典型的なマルチステップサンプリングの必要性を低減し、動きの質を犠牲にすることなく、推論時間を著しく加速する。
実験の結果、TAPOとMotionFLUXは統合されたシステムを形成し、セマンティック一貫性とモーションクオリティの両方において最先端のアプローチより優れ、同時に生成速度も向上することが示された。
コードと事前訓練されたモデルがリリースされる。
関連論文リスト
- Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - iMoT: Inertial Motion Transformer for Inertial Navigation [0.5199807441687141]
iMoTは、革新的なトランスフォーマーベースの慣性オドメトリー法である。
正確な位置推定のために、運動と回転のモードからクロスモーダル情報を取得する。
iMoTは軌道再構成において、より優れたロバスト性と精度を実現するため、最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-13T22:52:47Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。