論文の概要: Inference-time Physics Alignment of Video Generative Models with Latent World Models
- arxiv url: http://arxiv.org/abs/2601.10553v1
- Date: Thu, 15 Jan 2026 16:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.215747
- Title: Inference-time Physics Alignment of Video Generative Models with Latent World Models
- Title(参考訳): 潜在世界モデルを用いた映像生成モデルの推論時物理アライメント
- Authors: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano,
- Abstract要約: 我々はWMRewardを導入し、推論時間アライメント問題としてビデオ生成の物理的妥当性を改善する。
特に、潜在世界モデルに先立って強い物理を応用し、複数の候補の軌道を探索し、操舵する報奨として活用する。
提案手法は,画像条件,マルチフレーム条件,テキスト条件による生成設定の物理的妥当性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 28.62446995107834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.
- Abstract(参考訳): 最先端のビデオ生成モデルは、有望なビジュアルコンテンツを制作するが、しばしば基本的な物理原理に反し、実用性を制限している。
この欠如は、事前学習による物理理解の不足によるものと見る者もいるが、物理学的妥当性の不足は、最適下推論戦略にも起因している。
そこで、WMRewardを導入し、推論時間アライメント問題として、ビデオ生成の物理的妥当性を改善する。
特に、潜在世界モデル(以下、VJEPA-2)に先立つ強い物理を、複数の候補の軌道を探索し、ステアリングする報奨として活用し、テスト時間計算のスケーリングにより、より優れた生成性能を実現する。
提案手法は, 画像条件, マルチフレーム条件, テキスト条件による生成設定の物理的妥当性を大幅に向上させ, 人間の嗜好調査による検証を行った。
特にICCV 2025 Perception Test PhysicsIQ Challengeでは62.64%のスコアを獲得し、優勝し、前回の成績を7.42%上回った。
我々の研究は、この特定のインスタンス化やパラメータ化を超えて、潜在世界モデルを用いて、ビデオ生成の物理的妥当性を向上させることの可能性を実証している。
関連論文リスト
- PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance [2.2606796828967823]
現在のビデオ生成モデルは高品質な美的ビデオを生成するが、現実の物理力学の表現を学ぶのに苦労することが多い。
本稿では、ビデオ生成プロセスに先立って学習可能な物理を組み込む概念実証フレームワークであるPhysVideoGeneratorを提案する。
本稿では,事前学習したビデオジョイント埋め込み予測アーキテクチャから抽出した高レベルな物理特徴を抑圧する軽量な予測器ネットワークPredictorPを紹介する。
論文 参考訳(メタデータ) (2026-01-07T07:38:58Z) - Bootstrapping Physics-Grounded Video Generation through VLM-Guided Iterative Self-Refinement [51.54051161067026]
本稿では,映像生成のための物理対応ガイダンスを提供するための反復的自己再構成フレームワークを提案する。
物理的不整合からのフィードバックに基づいてプロンプトを洗練させるマルチモーダル・チェーン・オブ・シント(MM-CoT)プロセスを導入する。
PhyIQベンチマーク実験の結果,物理IQのスコアは56.31から62.38に改善した。
論文 参考訳(メタデータ) (2025-11-25T13:09:03Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Improving the Physics of Video Generation with VJEPA-2 Reward Signal [28.62446995107834]
最先端のビデオ生成モデルは、物理的な理解が極めて限られている。
直感的な物理理解は、自然なビデオでSSLの事前トレーニングから現れている。
VJEPA-2を報酬信号として活用することにより、最先端のビデオ生成モデルの物理的妥当性を6%向上できることを示す。
論文 参考訳(メタデータ) (2025-10-22T13:40:38Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation [80.89133198952187]
PhysHPOは階層的クロスモーダル直接参照最適化のための新しいフレームワークである。
物理的に妥当なビデオ生成のための微妙な好み調整を可能にする。
また,PhysHPOは,高度なモデルの物理的妥当性と全体的な映像生成品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-08-14T17:30:37Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。