論文の概要: DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning
- arxiv url: http://arxiv.org/abs/2508.05405v1
- Date: Thu, 07 Aug 2025 13:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.891787
- Title: DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning
- Title(参考訳): DeepPHY:物理推論におけるエージェントVLMのベンチマーク
- Authors: Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng,
- Abstract要約: 視覚言語モデル(VLM)は、強い知覚能力と印象的な視覚的推論を示す。
複雑な動的環境において、細部と正確な行動計画に注意を払うのに苦労する。
DeepPHYは、現実世界のシナリオでこれらの機能を評価するために設計された、新しいベンチマークフレームワークである。
我々の評価では、最先端のVLMでさえ、物理的知識を正確な予測制御に変換するのに苦労している。
- 参考スコア(独自算出の注目度): 23.41054475390841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Vision Language Models (VLMs) exhibit strong perceptual abilities and impressive visual reasoning, they struggle with attention to detail and precise action planning in complex, dynamic environments, leading to subpar performance. Real-world tasks typically require complex interactions, advanced spatial reasoning, long-term planning, and continuous strategy refinement, usually necessitating understanding the physics rules of the target scenario. However, evaluating these capabilities in real-world scenarios is often prohibitively expensive. To bridge this gap, we introduce DeepPHY, a novel benchmark framework designed to systematically evaluate VLMs' understanding and reasoning about fundamental physical principles through a series of challenging simulated environments. DeepPHY integrates multiple physical reasoning environments of varying difficulty levels and incorporates fine-grained evaluation metrics. Our evaluation finds that even state-of-the-art VLMs struggle to translate descriptive physical knowledge into precise, predictive control.
- Abstract(参考訳): 視覚言語モデル(VLM)は、強い知覚能力と印象的な視覚的推論を示すが、複雑な動的環境における細部と精密な行動計画に注意を払わず、性能が劣る。
現実のタスクは通常、複雑な相互作用、高度な空間推論、長期計画、継続的な戦略改善を必要とし、通常はターゲットシナリオの物理規則を理解する必要がある。
しかし、現実のシナリオでこれらの能力を評価することは、しばしば違法にコストがかかる。
このギャップを埋めるために,VLMの基本的な物理原理に対する理解と推論を,一連の挑戦的なシミュレーション環境を通じて体系的に評価する新しいベンチマークフレームワークであるDeepPHYを紹介する。
DeepPHYは難易度が異なる複数の物理的推論環境を統合し、きめ細かい評価指標を取り入れている。
我々の評価では、最先端のVLMでさえ、記述的物理知識を正確で予測的な制御に変換するのに苦労している。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly [77.33429729761596]
物理理解と計画について視覚言語モデル(VLM)を評価するためのプログレッシブベンチマークであるPhyBlockを紹介する。
PhyBlockは、視覚質問回答(VQA)サンプルと並行して、新しい4段階の認知階層化タスクを統合する。
我々は21の最先端のVLMをベンチマークし、物理的に基盤化されたマルチステップ計画におけるその強みと限界を強調した。
論文 参考訳(メタデータ) (2025-06-10T11:46:06Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding? [15.419733591210514]
MLLM(Multimodal Large Language Models)は、Embodied AIとAutonomous Drivingのためのエンドツーエンドソリューションである。
MLLMの時空間的理解を評価するためのベンチマークであるSTI-Benchを紹介する。
私たちのベンチマークでは、デスクトップ、屋内、屋外のシナリオにまたがる幅広いロボットと車両の操作を網羅しています。
論文 参考訳(メタデータ) (2025-03-31T06:30:35Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。