論文の概要: Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.08270v1
- Date: Wed, 10 Sep 2025 04:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.303871
- Title: Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける解釈可能な物理推論と性能分類学
- Authors: Pranav Pawar, Kavish Shah, Akshat Bhalani, Komal Kasat, Dev Mittal, Hadi Gala, Deepali Patil, Nikita Raichada, Monali Deshmukh,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を2次元物理の理解に基づいて厳格に評価するための新しいフレームワークを提案する。
私たちのフレームワークは,4つのコアドメイン(プロジェクタモーション,コリジョンダイナミクス,メカニクス,流体ダイナミクス)にまたがる400以上の問題の多様なテストベッドを生成する,実用的なシナリオジェネレータを備えている。
モデルスケールと推論能力の相関を強く示し,トップパフォーマンスモデルであるQwen2.5-VL-7Bを0.815点とした。
- 参考スコア(独自算出の注目度): 0.523693719989689
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As Vision-Language Models (VLMs) grow in sophistication, their ability to perform reasoning is coming under increasing supervision. While they excel at many tasks, their grasp of fundamental scientific principles, such as physics, remains an underexplored frontier. To reflect the advancements in these capabilities, we introduce a novel and accessible framework designed to rigorously evaluate VLMs on their understanding of 2D physics. Our framework features a pragmatic scenario generator that creates a diverse testbed of over 400 problems across four core domains: Projectile Motion, Collision Dynamics, Mechanics, and Fluid Dynamics. Through comprehensive evaluation of four state-of-the-art VLMs, we demonstrate a strong correlation between model scale and reasoning ability, with our top-performing model, Qwen2.5-VL-7B, achieving an overall score of 0.815. We find that while models excel at formulaic problems, they struggle significantly with domains requiring abstract spatial reasoning. By designing this framework, we aim to democratize the study of scientific reasoning in VLMs and foster deeper insights into their capabilities and limitations.
- Abstract(参考訳): VLM(Vision-Language Models)の高度化に伴い、推論を行う能力は、監督の強化の下でも向上している。
それらは多くのタスクに優れていますが、物理学のような基本的な科学的原理の把握は、未探索のフロンティアのままです。
これらの能力の進歩を反映し、2次元物理の理解に基づいてVLMを厳格に評価する新しい枠組みを導入する。
私たちのフレームワークは,4つのコアドメイン(プロジェクタモーション,コリジョンダイナミクス,メカニクス,流体ダイナミクス)にまたがる400以上の問題の多様なテストベッドを生成する,実用的なシナリオジェネレータを備えている。
我々は,4つの最先端VLMの総合評価を通じて,モデルスケールと推論能力の相関を強く示し,トップパフォーマンスモデルであるQwen2.5-VL-7Bを0.815点とした。
定式的問題ではモデルが優れているが、抽象的な空間的推論を必要とする領域とはかなり苦労している。
この枠組みを設計することにより、VLMにおける科学的推論の研究を民主化し、その能力と限界に関する深い洞察を深めることを目指している。
関連論文リスト
- From Diagnosis to Improvement: Probing Spatio-Physical Reasoning in Vision Language Models [10.740632493925018]
物理的推論は、堅牢な世界モデルを構築するための重要なステップである。
近年の視覚言語モデル (VLM) は、特殊領域において顕著な進歩を見せている。
しかし、その物理的推論能力はほとんど解明されていない。
論文 参考訳(メタデータ) (2025-08-14T15:55:48Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [95.2886065291234]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.91860938879665]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。
本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。
以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-01-27T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。