論文の概要: ReAlign: Text-to-Motion Generation via Step-Aware Reward-Guided Alignment
- arxiv url: http://arxiv.org/abs/2511.19217v1
- Date: Mon, 24 Nov 2025 15:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.274274
- Title: ReAlign: Text-to-Motion Generation via Step-Aware Reward-Guided Alignment
- Title(参考訳): ReAlign: ステップアウェア・リワード誘導アライメントによるテキスト・ツー・モーション生成
- Authors: Wanjiang Weng, Xiaofeng Tan, Junbo Wang, Guo-Sen Xie, Pan Zhou, Hongsong Wang,
- Abstract要約: テキスト・トゥ・モーション・ジェネレーションは、ゲーム、映画、ロボット工学の分野で大きな可能性を秘めている。
拡散モデルには、テキストと動きの分布の相違があり、意味的に矛盾した動きをもたらす。
この制限に対処するために、Reward-guided sample Alignment (ReAlign)を提案する。
提案手法は,既存の最先端手法と比較して,テキストのアライメントと動作品質を著しく向上させる。
- 参考スコア(独自算出の注目度): 38.82543734940858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-motion generation, which synthesizes 3D human motions from text inputs, holds immense potential for applications in gaming, film, and robotics. Recently, diffusion-based methods have been shown to generate more diversity and realistic motion. However, there exists a misalignment between text and motion distributions in diffusion models, which leads to semantically inconsistent or low-quality motions. To address this limitation, we propose Reward-guided sampling Alignment (ReAlign), comprising a step-aware reward model to assess alignment quality during the denoising sampling and a reward-guided strategy that directs the diffusion process toward an optimally aligned distribution. This reward model integrates step-aware tokens and combines a text-aligned module for semantic consistency and a motion-aligned module for realism, refining noisy motions at each timestep to balance probability density and alignment. Extensive experiments of both motion generation and retrieval tasks demonstrate that our approach significantly improves text-motion alignment and motion quality compared to existing state-of-the-art methods.
- Abstract(参考訳): テキスト入力から人間の3D動作を合成するテキスト・トゥ・モーション・ジェネレーションは、ゲーム、映画、ロボット工学の応用において大きな可能性を秘めている。
近年、拡散に基づく手法によりより多様性と現実的な動きが生まれることが示されている。
しかし、拡散モデルにはテキストと動きの分布の相違があり、意味的に矛盾する動きや低品質な動きをもたらす。
この制限に対処するため、デノジングサンプリング中のアライメント品質を評価するステップアウェア報酬モデルと、拡散過程を最適に整列した分布に向けて誘導する報酬誘導戦略を含むReward-guided sample Alignment (ReAlign)を提案する。
この報酬モデルは、ステップ認識トークンを統合し、意味的一貫性のためのテキスト整列モジュールとリアリズムのための動き整列モジュールを組み合わせる。
動作生成タスクと検索タスクの両方の大規模な実験により,既存の最先端手法と比較して,本手法はテキストのアライメントと動作品質を著しく改善することが示された。
関連論文リスト
- MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment [38.42799902378583]
仮想キャラクタとエンボディエージェントのアニメーションにはモーション生成が不可欠である。
TAPOとMotionFLUXは、セマンティック一貫性とモーション品質の両方において最先端のアプローチより優れている統一システムを形成する。
論文 参考訳(メタデータ) (2025-08-27T02:45:09Z) - ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment [48.894439350114396]
本稿では,バイリンガル・テキスト・トゥ・モーション生成モデルにおいて重要なベンチマークとなるバイリンガル・ヒューマン・モーション・データセットであるBiHumanML3Dを提案する。
また,バイリンガル・モーション・ディフュージョン・モデル (BiMD) を提案する。
提案手法は,既存の最先端手法と比較して,テキスト・モーションアライメントと動作品質を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-05-08T06:19:18Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。