論文の概要: PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models
- arxiv url: http://arxiv.org/abs/2601.16007v1
- Date: Thu, 22 Jan 2026 14:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.623435
- Title: PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models
- Title(参考訳): PhysicsMind:基礎VLMと世界モデルにおける物理推論と予測のためのシムおよびリアルメカニクスベンチマーク
- Authors: Chak-Wing Mak, Guanyu Zhu, Boyi Zhang, Hongji Li, Xiaowei Chi, Kevin Zhang, Yichen Wu, Yangfan He, Chun-Kai Fan, Wentao Lu, Kuangzhi Ge, Xinyu Fang, Hongyang He, Kuan Lu, Tianxiang Xu, Li Zhang, Yongxin Ni, Youhua Li, Shanghang Zhang,
- Abstract要約: MLLM(Multimodal Large Language Models)やビデオワールドモデルは、数学的、常識的、視覚的推論において大きく進歩している。
この問題を計測しようとする既存のベンチマークは、合成された視覚的質問応答テンプレート、あるいは物理的な法則によってビデオがどれだけうまく機能するかを測定するための知覚的ビデオ品質に焦点を当てている。
我々は,3つの標準原理(Center of Mass, Lever Equilibrium, Newton's First Law)について,法に一貫性のある推論と生成を評価する統一ベンチマークであるPhysicalMindを紹介する。
- 参考スコア(独自算出の注目度): 40.16417939211015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern foundational Multimodal Large Language Models (MLLMs) and video world models have advanced significantly in mathematical, common-sense, and visual reasoning, but their grasp of the underlying physics remains underexplored. Existing benchmarks attempting to measure this matter rely on synthetic, Visual Question Answer templates or focus on perceptual video quality that is tangential to measuring how well the video abides by physical laws. To address this fragmentation, we introduce PhysicsMind, a unified benchmark with both real and simulation environments that evaluates law-consistent reasoning and generation over three canonical principles: Center of Mass, Lever Equilibrium, and Newton's First Law. PhysicsMind comprises two main tasks: i) VQA tasks, testing whether models can reason and determine physical quantities and values from images or short videos, and ii) Video Generation(VG) tasks, evaluating if predicted motion trajectories obey the same center-of-mass, torque, and inertial constraints as the ground truth. A broad range of recent models and video generation models is evaluated on PhysicsMind and found to rely on appearance heuristics while often violating basic mechanics. These gaps indicate that current scaling and training are still insufficient for robust physical understanding, underscoring PhysicsMind as a focused testbed for physics-aware multimodal models. Our data will be released upon acceptance.
- Abstract(参考訳): 現代のマルチモーダル大言語モデル(MLLM)とビデオワールドモデルは、数学的、常識的、視覚的推論において著しく進歩しているが、基礎となる物理学の理解はいまだに過小評価されている。
この問題を計測しようとする既存のベンチマークは、合成された視覚的質問応答テンプレート、あるいは物理的な法則によってビデオがどれだけうまく機能するかを測定するための知覚的ビデオ品質に焦点を当てている。
この断片化に対処するために、我々は、Center of Mass, Lever Equilibrium, Newton's First Lawという3つの標準原理に対して、法一貫性のある推論と生成を評価する、実環境とシミュレーション環境を統合したベンチマークであるPhysicalMindを紹介した。
PhysicsMindは2つの主要なタスクから構成される。
一 VQAタスク、画像又はショートビデオから、モデルが物理的量及び価値を推論し、決定できるかどうかをテストすること。
二 ビデオ生成(VG)タスクであって、予測運動軌跡が、基礎的真理と同じ中心、トルク、慣性制約に従うかどうかを評価すること。
近年の様々なモデルやビデオ生成モデルの評価は、PhysorMindで行われ、外見のヒューリスティックに頼りながら、基本力学に違反することが多い。
これらのギャップは、現在のスケーリングとトレーニングが、物理を意識したマルチモーダルモデルのための集中的なテストベッドとして、ロバストな物理的理解にはまだ不十分であることを示している。
我々のデータは受理後に公表される。
関連論文リスト
- PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [100.65199317765608]
物理原理は現実的な視覚シミュレーションには基本的だが、トランスフォーマーベースのビデオ生成において重要な監視対象である。
本研究では,物理衝突ルールを高次元空間に直接適用した映像生成モデルのための物理認識強化学習パラダイムを提案する。
このパラダイムを、MDcycle(Mimicry-Discovery Cycle)と呼ばれる統合フレームワークに拡張することで、大幅な微調整を可能にします。
論文 参考訳(メタデータ) (2026-01-16T08:40:10Z) - PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - PhysiX: A Foundation Model for Physics Simulations [27.359872113159405]
物理シミュレーションのための最初の大規模基礎モデルであるPhysorXを紹介する。
PhysiXはデータボトルネックに効果的に対処し、タスク固有のベースラインを上回ります。
その結果,自然ビデオから学んだ知識が物理シミュレーションにうまく移行できることが示唆された。
論文 参考訳(メタデータ) (2025-06-21T18:10:12Z) - IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments [26.02187269408895]
IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。
IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-11T15:21:16Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。