論文の概要: VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction
- arxiv url: http://arxiv.org/abs/2602.13294v1
- Date: Mon, 09 Feb 2026 05:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.827328
- Title: VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction
- Title(参考訳): VisPhyWorld: コード駆動のビデオ再構成による物理推論の探索
- Authors: Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen,
- Abstract要約: VisPhyWorldは、物理推論を評価する実行ベースのフレームワークである。
実行可能コードを生成することで、推論された世界表現は直接検査可能、編集可能、偽造可能となる。
現状のMLLMは強いセマンティックなシーン理解を実現する一方で、物理的パラメータを正確に推測し、一貫した物理力学をシミュレートするのに苦労していることを示す。
- 参考スコア(独自算出の注目度): 48.60465268759689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating whether Multimodal Large Language Models (MLLMs) genuinely reason about physical dynamics remains challenging. Most existing benchmarks rely on recognition-style protocols such as Visual Question Answering (VQA) and Violation of Expectation (VoE), which can often be answered without committing to an explicit, testable physical hypothesis. We propose VisPhyWorld, an execution-based framework that evaluates physical reasoning by requiring models to generate executable simulator code from visual observations. By producing runnable code, the inferred world representation is directly inspectable, editable, and falsifiable. This separates physical reasoning from rendering. Building on this framework, we introduce VisPhyBench, comprising 209 evaluation scenes derived from 108 physical templates and a systematic protocol that evaluates how well models reconstruct appearance and reproduce physically plausible motion. Our pipeline produces valid reconstructed videos in 97.7% on the benchmark. Experiments show that while state-of-the-art MLLMs achieve strong semantic scene understanding, they struggle to accurately infer physical parameters and to simulate consistent physical dynamics.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)が物理力学を真に理にかなっているかどうかを評価することは依然として難しい。
既存のベンチマークのほとんどは、視覚的質問回答(VQA)や期待の違反(VoE)のような認識スタイルのプロトコルに依存しており、明示的で検証可能な物理仮説にコミットすることなく答えることができる。
本稿では,視覚的観察から実行可能なシミュレータコードを生成するモデルを必要とすることによって,物理推論を評価する実行ベースのフレームワークであるVisPhyWorldを提案する。
実行可能コードを生成することで、推論された世界表現は直接検査可能、編集可能、偽造可能となる。
これは物理的推論とレンダリングを分離する。
108個の物理テンプレートから得られた209個の評価シーンと、モデルがどのように外観を再構成し、物理的に可塑性な動きを再現するかを評価するための体系的プロトコルからなる、VisPhyBenchを紹介した。
我々のパイプラインは、ベンチマークで97.7%で有効な再構成ビデオを生成する。
実験により、最先端のMLLMは強い意味的シーン理解を実現する一方で、物理的パラメータを正確に推測し、一貫した物理力学をシミュレートするのに苦労していることが示された。
関連論文リスト
- Perceptual Self-Reflection in Agentic Physics Simulation Code Generation [0.0]
本稿では,自然言語記述から物理シミュレーションコードを生成するフレームワークを提案する。
主要なイノベーションは知覚的検証であり、視覚能力のある言語モデルを使用してレンダリングされたアニメーションフレームを分析する。
本研究では, 古典力学, 流体力学, 熱力学, 電磁学, 波動物理学, 反応拡散系, 非物理データ可視化を含む7分野にわたるシステム評価を行った。
論文 参考訳(メタデータ) (2026-02-12T15:48:33Z) - SimuScene: Training and Benchmarking Code Generation to Simulate Physical Scenarios [71.65387146697319]
大規模言語モデル(LLM)は、数学の競争、複雑なコーディング、科学的推論といったタスクのために広く研究されている。
物理シナリオをシミュレートしてLLMを訓練し,評価する最初の体系的な研究であるSimuSceneを提案する。
品質を保証するために、人間の検証とともに、データ収集のための自動パイプラインを構築します。
論文 参考訳(メタデータ) (2026-02-11T13:26:02Z) - ProPhy: Progressive Physical Alignment for Dynamic World Simulation [55.456455952212416]
ProPhyは、明示的な物理認識条件付けと異方性生成を可能にするプログレッシブ物理アライメントフレームワークである。
ProPhyは既存の最先端手法よりもリアルでダイナミックで物理的に一貫性のある結果が得られることを示す。
論文 参考訳(メタデータ) (2025-12-05T09:39:26Z) - PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [11.282655911647483]
視覚言語モデル(VLM)における物理推論の課題
物理コンテキストビルダー(PCB)は,物理シーンの詳細な記述を生成するために,より小型のVLMを微調整したモジュラーフレームワークである。
PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。