論文の概要: PhyWorld: Physics-Faithful World Model for Video Generation
- arxiv url: http://arxiv.org/abs/2605.19242v1
- Date: Tue, 19 May 2026 01:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.058305
- Title: PhyWorld: Physics-Faithful World Model for Video Generation
- Title(参考訳): PhyWorld:物理に富むビデオ生成のための世界モデル
- Authors: Pu Zhao, Juyi Lin, Timothy Rupprecht, Arash Akbari, Chence Yang, Rahul Chowdhury, Elaheh Motamedi, Arman Akbari, Yumei He, Chen Wang, Geng Yuan, Weiwei Chen, Yanzhi Wang,
- Abstract要約: 本稿では,時間的コヒーレントで物理的に忠実なシーン継続を生成するビデオ生成ワールドモデルであるPhyWorldを提案する。
最初の段階では、フローマッチングの微調整によりビデオ間連続性を改善し、安定した視覚特性とコヒーレントな動きのダイナミクスを奨励する。
第2段階では、生成したダイナミクスを物理選好ペアに対して直接選好最適化(DPO)を用いて物理原理と整合させ、より高い物理確率で出力に向かってモデルを導く。
- 参考スコア(独自算出の注目度): 30.11795285799137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World simulators can provide safe and scalable environments for training Physical AI systems before real-world deployment. Large video generation models are emerging as a promising basis for such simulators because they can generate diverse and realistic visual futures. However, using them as world simulators requires physically faithful video continuations, namely, generated videos that preserve the physical state implied by the conditioning input, and evolve in ways consistent with basic physical principles. We propose PhyWorld, a video generation world model designed to produce temporally coherent and physically faithful scene continuations through two-stage post-training. In the first stage, we improve video-to-video continuation with flow matching fine-tuning, encouraging stable visual attributes and coherent motion dynamics across frames. In the second stage, we align generated dynamics with physical principles using Direct Preference Optimization (DPO) over physics preference pairs, guiding the model toward outputs with higher physical plausibility. To evaluate PhyWorld, we use both standard video-quality benchmarks and a dedicated physical-faithfulness benchmark with per-law scoring. Experiments show that PhyWorld improves video consistency, achieving an average score of 0.769 on VBench compared with 0.756 or below for state-of-the-art baselines. PhyWorld also improves physical plausibility, reaching an average score of 3.09 on our physical-faithfulness benchmark compared with 2.99 for the strongest baseline. These results suggest that post-training large video generation models with continuation and physics-preference signals can make them more effective world simulators for Physical AI.
- Abstract(参考訳): 世界シミュレーターは、現実世界の展開前に物理AIシステムをトレーニングするための安全でスケーラブルな環境を提供することができる。
大規模なビデオ生成モデルは、多様な現実的な視覚的未来を生成できるため、そのようなシミュレーターにとって有望な基盤として現れつつある。
しかし、それらを世界シミュレータとして使用するには、物理的に忠実なビデオ継続、すなわち条件付け入力によって入力される物理的状態を保存し、基本的な物理原理と整合した方法で進化させるビデオが必要である。
本稿では,2段階のポストトレーニングによる時間的コヒーレントで物理的に忠実なシーン継続を実現するための映像生成ワールドモデルであるPhyWorldを提案する。
第1段階では、フローマッチングの微調整によりビデオ間連続性を改善し、安定した視覚特性とフレーム間のコヒーレントな動きのダイナミクスを奨励する。
第2段階では、生成したダイナミクスを物理選好ペアに対して直接選好最適化(DPO)を用いて物理原理と整合させ、より高い物理確率で出力に向かってモデルを導く。
PhyWorldを評価するために、標準的なビデオ品質ベンチマークと、法律ごとのスコアリングを備えた専用物理忠実度ベンチマークの両方を使用します。
実験によると、PhyWorldはビデオの一貫性を改善し、VBenchの平均スコアは0.769、最先端のベースラインは0.756以下である。
PhyWorldは物理的妥当性も向上し、最強のベースラインの2.99に対して、我々の物理忠実度ベンチマークの平均スコアは3.09に達した。
これらの結果から,継続および物理条件信号を用いた大規模ビデオ生成モデルの訓練が,物理AIのためのより効率的な世界シミュレータを実現することが示唆された。
関連論文リスト
- PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。
i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文 参考訳(メタデータ) (2026-04-30T17:53:03Z) - Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。
PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文 参考訳(メタデータ) (2026-03-06T15:48:25Z) - Inference-time Physics Alignment of Video Generative Models with Latent World Models [28.62446995107834]
我々はWMRewardを導入し、推論時間アライメント問題としてビデオ生成の物理的妥当性を改善する。
特に、潜在世界モデルに先立って強い物理を応用し、複数の候補の軌道を探索し、操舵する報奨として活用する。
提案手法は,画像条件,マルチフレーム条件,テキスト条件による生成設定の物理的妥当性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-15T16:18:00Z) - ProPhy: Progressive Physical Alignment for Dynamic World Simulation [55.456455952212416]
ProPhyは、明示的な物理認識条件付けと異方性生成を可能にするプログレッシブ物理アライメントフレームワークである。
ProPhyは既存の最先端手法よりもリアルでダイナミックで物理的に一貫性のある結果が得られることを示す。
論文 参考訳(メタデータ) (2025-12-05T09:39:26Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation [80.89133198952187]
PhysHPOは階層的クロスモーダル直接参照最適化のための新しいフレームワークである。
物理的に妥当なビデオ生成のための微妙な好み調整を可能にする。
また,PhysHPOは,高度なモデルの物理的妥当性と全体的な映像生成品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-08-14T17:30:37Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。