論文の概要: Does Physics Knowledge Emerge in Frontier Models?
- arxiv url: http://arxiv.org/abs/2510.06251v1
- Date: Fri, 03 Oct 2025 22:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.058629
- Title: Does Physics Knowledge Emerge in Frontier Models?
- Title(参考訳): 物理知識はフロンティアモデルに現れるか?
- Authors: Ieva Bagdonaviciute, Vibhav Vineet,
- Abstract要約: VLM(Leading Vision-Language Models)は、視覚知覚と一般的な推論において強力な結果を示す。
しかし、物理力学を理解し予測する能力は、まだ不明である。
3つの物理シミュレーションデータセット上で6つのフロンティアVLMをベンチマークする。
- 参考スコア(独自算出の注目度): 19.035965618393096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leading Vision-Language Models (VLMs) show strong results in visual perception and general reasoning, but their ability to understand and predict physical dynamics remains unclear. We benchmark six frontier VLMs on three physical simulation datasets - CLEVRER, Physion, and Physion++ - where the evaluation tasks test whether a model can predict outcomes or hypothesize about alternative situations. To probe deeper, we design diagnostic subtests that isolate perception (objects, colors, occluders) from physics reasoning (motion prediction, spatial relations). Intuitively, stronger diagnostic performance should support higher evaluation accuracy. Yet our analysis reveals weak correlations: models that excel at perception or physics reasoning do not consistently perform better on predictive or counterfactual evaluation. This counterintuitive gap exposes a central limitation of current VLMs: perceptual and physics skills remain fragmented and fail to combine into causal understanding, underscoring the need for architectures that bind perception and reasoning more tightly.
- Abstract(参考訳): VLM(Leading Vision-Language Models)は、視覚知覚と一般的な推論において強力な結果を示すが、物理力学を理解し予測する能力はいまだに不明である。
CLEVRER,physion,physion++の3つの物理シミュレーションデータセット上で、6つのフロンティアVLMをベンチマークした。
より深く調査するために、物理推論(運動予測、空間関係)から知覚(物体、色、障害物)を分離する診断サブテストを設計する。
直感的には、より強力な診断性能は高い評価精度をサポートするべきである。
しかし、我々の分析では弱い相関関係が明らかであり、知覚や物理学的推論に優れるモデルは、予測的あるいは反事実的評価において常に良い性能を発揮するわけではない。
知覚と物理学のスキルは断片化され続け、因果理解と組み合わせられず、知覚と推論をより緊密に結合するアーキテクチャの必要性が強調されている。
関連論文リスト
- Why Cannot Neural Networks Master Extrapolation? Insights from Physical Laws [0.0]
言語モデリングにおけるファンデーションモデル(FM)の顕著な成功により、時系列予測のためのFMの開発への関心が高まっている。
この研究は、統計的学習モデルがトレーニング領域の外でより正確に予測できる能力を特徴付ける基本的な特性を特定し、定式化する。
理論的解析に加えて,この特性が現在のディープラーニングアーキテクチャに与える影響を実証的に示す。
論文 参考訳(メタデータ) (2025-10-05T09:07:25Z) - Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events [75.94926117990435]
本研究では,AIエージェントによる直感的な物理の把握を評価するベンチマークデータセットであるX-VoEを紹介する。
X-VoEは直感的な物理モデルの説明能力を高めるためのより高いバーを確立する。
本稿では、物理力学を捉え、隠蔽対象状態を推定する説明に基づく学習システムを提案する。
論文 参考訳(メタデータ) (2023-08-21T03:28:23Z) - A Benchmark for Modeling Violation-of-Expectation in Physical Reasoning
Across Event Categories [4.4920673251997885]
VoE(Violation-of-Expectation)は、期待されたシーンのみの知識で、期待されたシーンまたは驚きのシーンをラベル付けするために用いられる。
物理推論における既存のVoEベースの3Dデータセットは、ほとんど真実や帰納バイアスのない視覚データを提供する。
我々は、因果関係のある特徴と規則の基調ラベルを組み込んだ、新しい大規模合成3D VoEデータセットをキュレートすることで、身体的推論を研究するためのベンチマークを構築した。
論文 参考訳(メタデータ) (2021-11-16T22:59:25Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。