論文の概要: LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
- arxiv url: http://arxiv.org/abs/2510.11512v1
- Date: Mon, 13 Oct 2025 15:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.427943
- Title: LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
- Title(参考訳): LikePhys: ビデオ拡散モデルにおける直観的物理理解の評価
- Authors: Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini,
- Abstract要約: ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
- 参考スコア(独自算出の注目度): 57.086932851733145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intuitive physics understanding in video diffusion models plays an essential role in building general-purpose physically plausible world simulators, yet accurately evaluating such capacity remains a challenging task due to the difficulty in disentangling physics correctness from visual appearance in generation. To the end, we introduce LikePhys, a training-free method that evaluates intuitive physics in video diffusion models by distinguishing physically valid and impossible videos using the denoising objective as an ELBO-based likelihood surrogate on a curated dataset of valid-invalid pairs. By testing on our constructed benchmark of twelve scenarios spanning over four physics domains, we show that our evaluation metric, Plausibility Preference Error (PPE), demonstrates strong alignment with human preference, outperforming state-of-the-art evaluator baselines. We then systematically benchmark intuitive physics understanding in current video diffusion models. Our study further analyses how model design and inference settings affect intuitive physics understanding and highlights domain-specific capacity variations across physical laws. Empirical results show that, despite current models struggling with complex and chaotic dynamics, there is a clear trend of improvement in physics understanding as model capacity and inference settings scale.
- Abstract(参考訳): ビデオ拡散モデルにおける直観的物理理解は、汎用的な物理的に可視な世界シミュレータの構築において重要な役割を担っているが、その能力の正確な評価は、生成時の視覚的外観から物理の正しさを遠ざけることの難しさから難しい課題である。
そこで本研究では,映像拡散モデルにおける直観的物理を評価するトレーニングフリー手法であるLikePhysを紹介した。
4つの物理領域にまたがる12のシナリオのベンチマークを用いて、評価基準であるPPE(Plausibility Preference Error)が、人間の嗜好と強く一致し、最先端の評価基準よりも優れていることを示す。
そして、直感的な物理理解を現在のビデオ拡散モデルで体系的にベンチマークする。
さらに、モデル設計と推論設定が直感的な物理理解にどのように影響するかを解析し、物理法則にまたがる領域固有のキャパシティの変化を強調した。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
関連論文リスト
- TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments [26.02187269408895]
IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。
IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-11T15:21:16Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - PIETRA: Physics-Informed Evidential Learning for Traversing Out-of-Distribution Terrain [35.21102019590834]
物理インフォームド・エビデンシャル・トラバーサビリティ(英: Physics-Informed Evidential Traversability、略称:PIETRA)は、物理の先行性を直接、明らかなニューラルネットワークの数学的定式化に統合する自己指導型学習フレームワークである。
我々の明らかなネットワークは、学習と物理に基づくアウト・オブ・ディストリビューション・インプットの予測をシームレスに遷移させる。
PIETRAは、大きな分散シフトのある環境における学習精度とナビゲーション性能の両方を改善している。
論文 参考訳(メタデータ) (2024-09-04T18:01:10Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。