論文の概要: PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2512.24551v1
- Date: Wed, 31 Dec 2025 01:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.525869
- Title: PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
- Title(参考訳): PhyGDPO: 物理的に一貫性のあるテキスト・ビデオ生成のための物理対応型グループワイド直接選好最適化
- Authors: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou,
- Abstract要約: テキスト・ツー・ビデオ(T2V)生成の最近の進歩は、優れた視覚的品質を達成しているが、物理法則に忠実に従うビデオの合成は、依然としてオープンな課題である。
本稿では、まず、視覚言語モデル(VLM)とチェーン・オブ・シント推論を利用して、大規模トレーニングデータセットPhyVidGen-135Kを収集する物理拡張ビデオデータ構築パイプラインPhyAugPipeを紹介する。
次に、グループワイド・プラケット・Lucの上に構築されたPhyGDPOの原理を定式化する。
- 参考スコア(独自算出の注目度): 47.091099927166375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成の最近の進歩は、優れた視覚的品質を達成しているが、物理法則に忠実に従うビデオの合成は、依然としてオープンな課題である。
グラフィックスやプロンプト拡張に基づく既存の手法は、単純なシミュレートされた環境を超えて一般化したり、暗黙の物理的推論を学ぶのに苦労する。
リッチな物理相互作用や現象を伴うトレーニングデータの不足も問題である。
本稿では、まず、視覚言語モデル(VLM)とチェーン・オブ・シント推論を利用して、大規模トレーニングデータセットPhyVidGen-135Kを収集する物理拡張ビデオデータ構築パイプラインPhyAugPipeを紹介する。
次に、PhyGDPO(PhyGDPO)の原理を定式化し、グループワイドプラケット・リュック確率モデルに基づいて、ペアワイド比較を超えた全体論的選好を捉える。
PhyGDPOでは、VLMに基づく物理報酬を埋め込んだ物理誘導リワード(PGR)スキームを設計し、物理整合性に向けたステア最適化を行う。
また,LoRA-Switch Reference(LoRA-SR)方式を提案する。
実験の結果,PhyGenBench や VideoPhy2 では,最先端のオープンソース手法よりも優れていることがわかった。
詳しくは、https://caiyuanhao1998.github.io/project/PhyGDPOをご覧ください。
私たちのコード、モデル、データはhttps://github.com/caiyuanhao1998/Open-PhyGDPOで公開されます。
関連論文リスト
- Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation [80.89133198952187]
PhysHPOは階層的クロスモーダル直接参照最適化のための新しいフレームワークである。
物理的に妥当なビデオ生成のための微妙な好み調整を可能にする。
また,PhysHPOは,高度なモデルの物理的妥当性と全体的な映像生成品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-08-14T17:30:37Z) - RDPO: Real Data Preference Optimization for Physics Consistency Video Generation [24.842288734103505]
本稿では,実世界のビデオから直接物理先行情報を抽出するアノテーションのないフレームワークであるReal Data Preference Optimisation(RDPO)を提案する。
RDPOは、トレーニング済みのジェネレータで実ビデオシーケンスを逆サンプリングし、物理的正確性の観点から区別可能な好みペアを自動的に構築する。
多段階反復訓練スケジュールは、ジェネレータが物理法則に従うように誘導する。
論文 参考訳(メタデータ) (2025-06-23T13:55:24Z) - VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models [53.204403109208506]
現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
論文 参考訳(メタデータ) (2025-05-29T17:06:44Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。