論文の概要: RDPO: Real Data Preference Optimization for Physics Consistency Video Generation
- arxiv url: http://arxiv.org/abs/2506.18655v1
- Date: Mon, 23 Jun 2025 13:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.008073
- Title: RDPO: Real Data Preference Optimization for Physics Consistency Video Generation
- Title(参考訳): RDPO:物理一貫性ビデオ生成のための実データ参照最適化
- Authors: Wenxu Qian, Chaoyue Wang, Hou Peng, Zhiyu Tan, Hao Li, Anxiang Zeng,
- Abstract要約: 本稿では,実世界のビデオから直接物理先行情報を抽出するアノテーションのないフレームワークであるReal Data Preference Optimisation(RDPO)を提案する。
RDPOは、トレーニング済みのジェネレータで実ビデオシーケンスを逆サンプリングし、物理的正確性の観点から区別可能な好みペアを自動的に構築する。
多段階反復訓練スケジュールは、ジェネレータが物理法則に従うように誘導する。
- 参考スコア(独自算出の注目度): 24.842288734103505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation techniques have achieved remarkable advancements in visual quality, yet faithfully reproducing real-world physics remains elusive. Preference-based model post-training may improve physical consistency, but requires costly human-annotated datasets or reward models that are not yet feasible. To address these challenges, we present Real Data Preference Optimisation (RDPO), an annotation-free framework that distills physical priors directly from real-world videos. Specifically, the proposed RDPO reverse-samples real video sequences with a pre-trained generator to automatically build preference pairs that are statistically distinguishable in terms of physical correctness. A multi-stage iterative training schedule then guides the generator to obey physical laws increasingly well. Benefiting from the dynamic information explored from real videos, our proposed RDPO significantly improves the action coherence and physical realism of the generated videos. Evaluations on multiple benchmarks and human evaluations have demonstrated that RDPO achieves improvements across multiple dimensions. The source code and demonstration of this paper are available at: https://wwenxu.github.io/RDPO/
- Abstract(参考訳): 映像生成技術は、視覚的品質の顕著な進歩を遂げているが、現実の物理学を忠実に再現することは、いまだ明白である。
推奨ベースのポストトレーニングモデルは、物理的な一貫性を改善するかもしれないが、まだ実現不可能な、人手による注釈付きデータセットや報酬モデルを必要とする。
これらの課題に対処するために,実世界のビデオから直接物理先行情報を抽出するアノテーションのないフレームワークであるReal Data Preference Optimisation (RDPO)を提案する。
具体的には、RDPOは、物理的正確性の観点から統計的に区別可能な選好ペアを自動構築するために、事前訓練されたジェネレータで実映像シーケンスを逆サンプリングする。
多段階の反復訓練スケジュールでは、ジェネレータが物理法則に従うように誘導される。
実ビデオから探索した動的な情報から得られたRDPOは、生成したビデオのアクションコヒーレンスと物理リアリズムを大幅に改善する。
複数のベンチマークと人間による評価の結果、RDPOは複数の次元にわたる改善を実現している。
この論文のソースコードとデモは以下の通りである。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Dynamic-Aware Video Distillation: Optimizing Temporal Resolution Based on Video Semantics [68.85010825225528]
ビデオデータセットは、時間的情報の存在と異なるクラスにまたがる様々なレベルの冗長性によって、ユニークな課題を示す。
既存のDDアプローチでは、すべての異なるビデオセマンティクスにおける時間的冗長性を均一に仮定し、ビデオデータセットにおけるその有効性を制限している。
合成ビデオの時間分解能を最適に予測するための強化学習(RL)アプローチである動的認識ビデオ蒸留(DAViD)を提案する。
論文 参考訳(メタデータ) (2025-05-28T11:43:58Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction [2.5262441079541285]
本稿では,生成されたビデオの物理コヒーレンスを評価するためのベンチマークPhyCoBenchを紹介する。
われわれのベンチマークでは、120のプロンプトが7つのカテゴリの物理原理をカバーし、ビデオコンテンツで観察できる重要な物理法則を捉えている。
本稿では,光学フローと映像フレームをカスケード的に生成する拡散モデルであるPhyCoPredictorを提案する。
論文 参考訳(メタデータ) (2025-02-08T09:31:26Z) - Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems [49.11170948406405]
本研究では,単一のビデオから既知の連続制御方程式の物理パラメータを推定する教師なし手法を提案する。
Delfys75は5種類の動的システムのための75本のビデオからなる実世界のデータセットだ。
論文 参考訳(メタデータ) (2024-10-02T09:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。