論文の概要: RealDPO: Real or Not Real, that is the Preference
- arxiv url: http://arxiv.org/abs/2510.14955v1
- Date: Thu, 16 Oct 2025 17:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.994026
- Title: RealDPO: Real or Not Real, that is the Preference
- Title(参考訳): RealDPO: 現実か非現実か,それが前提
- Authors: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu,
- Abstract要約: 本稿では,実世界のデータを活用する新たなアライメントパラダイムであるRealDPOを,嗜好学習の正のサンプルとして紹介する。
実世界のビデオと間違ったモデル出力を対比することにより、RealDPOは反復的な自己補正を可能にし、徐々に動きの質を改善させる。
また,リッチかつ高精度な動き情報を用いて,人間の日常生活活動を捉えた高品質ビデオのキュレートデータセットであるRealAction-5Kを提案する。
- 参考スコア(独自算出の注目度): 47.79755938898515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generative models have recently achieved notable advancements in synthesis quality. However, generating complex motions remains a critical challenge, as existing models often struggle to produce natural, smooth, and contextually consistent movements. This gap between generated and real-world motions limits their practical applicability. To address this issue, we introduce RealDPO, a novel alignment paradigm that leverages real-world data as positive samples for preference learning, enabling more accurate motion synthesis. Unlike traditional supervised fine-tuning (SFT), which offers limited corrective feedback, RealDPO employs Direct Preference Optimization (DPO) with a tailored loss function to enhance motion realism. By contrasting real-world videos with erroneous model outputs, RealDPO enables iterative self-correction, progressively refining motion quality. To support post-training in complex motion synthesis, we propose RealAction-5K, a curated dataset of high-quality videos capturing human daily activities with rich and precise motion details. Extensive experiments demonstrate that RealDPO significantly improves video quality, text alignment, and motion realism compared to state-of-the-art models and existing preference optimization techniques.
- Abstract(参考訳): ビデオ生成モデルは、最近、合成品質の顕著な進歩を達成している。
しかし、既存のモデルは自然で滑らかで文脈的に一貫した動きを生み出すのに苦戦しているため、複雑な動きを生成することは依然として重要な課題である。
生成された動きと現実世界の動きのギャップは、実用性を制限する。
この問題に対処するために、リアルDPOは、現実のデータを優先学習のための正のサンプルとして活用し、より正確な動き合成を可能にする新しいアライメントパラダイムである。
限定的な修正フィードバックを提供する従来の教師付き微調整(SFT)とは異なり、RealDPOでは、モーションリアリズムを強化するために調整された損失関数を備えたダイレクト・プライス・オプティマイズ(DPO)を採用している。
実世界のビデオと間違ったモデル出力を対比することにより、RealDPOは反復的な自己補正を可能にし、徐々に動きの質を改善させる。
複雑な動き合成におけるポストトレーニングを支援するために、リッチで正確な動きの詳細で人間の日常生活活動を捉える高品質ビデオのキュレートデータセットであるRealAction-5Kを提案する。
大規模な実験により、RealDPOは最新技術モデルや既存の選好最適化手法と比較して、映像品質、テキストアライメント、モーションリアリズムを著しく改善することが示された。
関連論文リスト
- MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation [44.524568858995586]
MotionRAGは、関連する参照ビデオから動きの先行を適応させることで、モーションリアリズムを強化する検索強化フレームワークである。
提案手法は,複数のドメインや様々なベースモデルに対して,推論時の計算オーバーヘッドを無視できるような大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T15:26:04Z) - Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation [80.89133198952187]
PhysHPOは階層的クロスモーダル直接参照最適化のための新しいフレームワークである。
物理的に妥当なビデオ生成のための微妙な好み調整を可能にする。
また,PhysHPOは,高度なモデルの物理的妥当性と全体的な映像生成品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-08-14T17:30:37Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Motion Deblurring with Real Events [50.441934496692376]
本稿では,イベントベースの動作を自己教師型で記述するエンド・ツー・エンドの学習フレームワークを提案する。
実世界のイベントは、データ不整合によるパフォーマンス劣化を軽減するために利用される。
論文 参考訳(メタデータ) (2021-09-28T13:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。