論文の概要: PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly
- arxiv url: http://arxiv.org/abs/2506.08708v1
- Date: Tue, 10 Jun 2025 11:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.370073
- Title: PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly
- Title(参考訳): PhyBlock: 3Dブロックアセンブリによる物理的理解と計画のための進歩的なベンチマーク
- Authors: Liang Ma, Jiajun Wen, Min Lin, Rongtao Xu, Xiwen Liang, Bingqian Lin, Jun Ma, Yongxin Wang, Ziming Wei, Haokun Lin, Mingfei Han, Meng Cao, Bokui Chen, Ivan Laptev, Xiaodan Liang,
- Abstract要約: 物理理解と計画について視覚言語モデル(VLM)を評価するためのプログレッシブベンチマークであるPhyBlockを紹介する。
PhyBlockは、視覚質問回答(VQA)サンプルと並行して、新しい4段階の認知階層化タスクを統合する。
我々は21の最先端のVLMをベンチマークし、物理的に基盤化されたマルチステップ計画におけるその強みと限界を強調した。
- 参考スコア(独自算出の注目度): 77.33429729761596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While vision-language models (VLMs) have demonstrated promising capabilities in reasoning and planning for embodied agents, their ability to comprehend physical phenomena, particularly within structured 3D environments, remains severely limited. To close this gap, we introduce PhyBlock, a progressive benchmark designed to assess VLMs on physical understanding and planning through robotic 3D block assembly tasks. PhyBlock integrates a novel four-level cognitive hierarchy assembly task alongside targeted Visual Question Answering (VQA) samples, collectively aimed at evaluating progressive spatial reasoning and fundamental physical comprehension, including object properties, spatial relationships, and holistic scene understanding. PhyBlock includes 2600 block tasks (400 assembly tasks, 2200 VQA tasks) and evaluates models across three key dimensions: partial completion, failure diagnosis, and planning robustness. We benchmark 21 state-of-the-art VLMs, highlighting their strengths and limitations in physically grounded, multi-step planning. Our empirical findings indicate that the performance of VLMs exhibits pronounced limitations in high-level planning and reasoning capabilities, leading to a notable decline in performance for the growing complexity of the tasks. Error analysis reveals persistent difficulties in spatial orientation and dependency reasoning. Surprisingly, chain-of-thought prompting offers minimal improvements, suggesting spatial tasks heavily rely on intuitive model comprehension. We position PhyBlock as a unified testbed to advance embodied reasoning, bridging vision-language understanding and real-world physical problem-solving.
- Abstract(参考訳): 視覚言語モデル (VLM) は, エージェントの推論と計画において有望な能力を示したが, 物理現象の理解能力, 特に構造化3次元環境下での理解能力は, 依然として著しく制限されている。
このギャップを埋めるために、ロボット3Dブロック組立タスクによる物理的理解と計画のVLMを評価するために設計されたプログレッシブベンチマークであるPhyBlockを紹介した。
PhyBlockは、対象の視覚的質問回答(VQA)サンプルとともに、オブジェクトの特性、空間的関係、全体的シーン理解を含む、進歩的な空間的推論と基本的な物理的理解を評価することを目的とした、新しい4段階の認知階層化タスクを統合している。
PhyBlockには2600のブロックタスク(400のアセンブリタスク、2200のVQAタスク)が含まれており、部分補完、障害診断、計画ロバスト性という3つの重要な次元にわたるモデルを評価する。
我々は21の最先端のVLMをベンチマークし、物理的に基盤化されたマルチステップ計画におけるその強みと限界を強調した。
我々の経験から,VLMの性能は高い計画能力と推論能力の限界を顕著に示し,タスクの複雑さが増大する中で顕著な性能低下を招いた。
誤差解析は空間配向と依存性推論において永続的な困難を呈する。
驚くべきことに、チェーン・オブ・プリーティングは最小限の改善をもたらし、空間的タスクは直感的なモデル理解に大きく依存していることを示唆している。
我々はPhyBlockを統合テストベッドとして位置づけ、具体的推論、視覚言語理解のブリッジング、現実世界の物理問題解決を推進した。
関連論文リスト
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [6.569837864665502]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強のモデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators [34.28879194786174]
オープンワールド環境における汎用的なロボット移動操作は、長い地平線、複雑な目標、部分的な観測可能性といった大きな課題を生んでいる。
これらの課題に対処するための有望なアプローチは、タスクプランナーがこれらのスキルをシーケンスして、構造化言語で指定された目標を達成する、パラメータ化されたスキルのライブラリを計画することである。
本稿では、視覚言語モデルを利用して不確実性を推定し、シンボリックグラウンド化を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-04T07:48:53Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。
エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。