論文の概要: Pixels to Principles: Probing Intuitive Physics Understanding in Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2507.16572v1
- Date: Tue, 22 Jul 2025 13:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.13123
- Title: Pixels to Principles: Probing Intuitive Physics Understanding in Multimodal Language Models
- Title(参考訳): Pixels to Principles: Probing Intuitive Physics Understanding in Multimodal Language Models
- Authors: Mohamad Ballout, Serwan Jassim, Elia Bruni,
- Abstract要約: 本稿では,直感的な物理課題に対するMLLM(State-of-the-the-art multimodal large language model)の体系的評価について述べる。
オープンソースモデルであるInternVL 2.5、Qwen 2.5 VL、LLaVA-OneVision、およびプロプライエタリなGemini 2.0 Flash Thinkingを評価した。
最新のモデルでさえ、不確実なシナリオと物理的に妥当な区別を確実にするのに苦労している。
- 参考スコア(独自算出の注目度): 5.134872455507186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a systematic evaluation of state-of-the-art multimodal large language models (MLLMs) on intuitive physics tasks using the GRASP and IntPhys 2 datasets. We assess the open-source models InternVL 2.5, Qwen 2.5 VL, LLaVA-OneVision, and the proprietary Gemini 2.0 Flash Thinking, finding that even the latest models struggle to reliably distinguish physically plausible from implausible scenarios. To go beyond performance metrics, we conduct a probing analysis of model embeddings, extracting intermediate representations at key processing stages to examine how well task-relevant information is preserved. Our results show that, depending on task difficulty, a critical vision-language misalignment can emerge: vision encoders successfully capture physical plausibility cues, but this information is not effectively utilized by the language model, leading to failures in reasoning. This misalignment suggests that the primary limitation of MLLMs in intuitive physics tasks is not the vision component but the ineffective integration of visual and linguistic information. Our findings highlight vision-language alignment as a key area for improvement, offering insights for future MLLMs development.
- Abstract(参考訳): 本稿では,GRASPとIntPhys 2データセットを用いた直感的な物理問題に対するMLLM(State-of-the-the-art multimodal large language model)の体系的評価について述べる。
オープンソースモデルであるInternVL 2.5、Qwen 2.5 VL、LLaVA-OneVision、およびプロプライエタリなGemini 2.0 Flash Thinkingを評価し、最新のモデルでさえ、不確実なシナリオと物理的に妥当な区別に苦労していることを発見した。
性能指標を超越して、モデル埋め込みの探索分析を行い、キー処理段階における中間表現を抽出し、タスク関連情報がどの程度保存されているかを調べる。
視覚エンコーダは,タスクの難易度に応じて,身体的可視性の手がかりを捕捉するが,この情報は言語モデルでは有効に活用されず,推論に失敗する。
このミスアライメントは、直感的な物理タスクにおけるMLLMの最大の制限はビジョンコンポーネントではなく、視覚情報と言語情報の非効率な統合であることを示している。
本研究は,視覚言語アライメントを改善の鍵となる領域として取り上げ,今後のMLLM開発に向けた洞察を提供する。
関連論文リスト
- Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models [4.354672867211922]
本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。
我々は、最先端のマルチモーダルLCMの評価にそれを用いている。
評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥があることが判明した。
論文 参考訳(メタデータ) (2023-11-15T15:38:28Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。