論文の概要: PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies?
- arxiv url: http://arxiv.org/abs/2506.23725v1
- Date: Mon, 30 Jun 2025 10:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.027212
- Title: PAC Bench: Do Foundation Models Understand Prerequisites for Executing Manipulation Policies?
- Title(参考訳): PAC Bench: 操作ポリシーの実行には,基礎モデルが必要か?
- Authors: Atharva Gundawar, Som Sagar, Ransalu Senanayake,
- Abstract要約: PAC Benchは、視覚言語モデル(VLM)をコアプロパティ、アフォード、制約(PAC)の理解に基づいて評価するために設計されたベンチマークである。
評価の結果,既存のVLMが基本的な物理概念を把握できる能力には,信頼性の高いロボット操作に適した限界があることが示唆された。
- 参考スコア(独自算出の注目度): 7.736445799116692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly pivotal for generalist robot manipulation, enabling tasks such as physical reasoning, policy generation, and failure detection. However, their proficiency in these high-level applications often assumes a deep understanding of low-level physical prerequisites, a capability that remains largely unverified. For robots to perform actions reliably, they must comprehend intrinsic object properties (e.g., material, weight), action affordances (e.g., graspable, stackable), and physical constraints (e.g., stability, reachability, or an object's state, such as being closed). Despite the widespread use of VLMs in manipulation tasks, we argue that off-the-shelf models may lack this granular, physically grounded understanding, as such prerequisites are often overlooked during training. To address this critical gap, we introduce PAC Bench, a comprehensive benchmark designed to systematically evaluate VLMs on their understanding of core Properties, Affordances, and Constraints (PAC) from a task executability perspective. PAC Bench features a diverse dataset with over 30,000 annotations, comprising 673 real-world images (115 object classes, 15 property types, and 1 to 3 affordances defined per class), 100 real-world humanoid-view scenarios, and 120 unique simulated constraint scenarios across four tasks. Our evaluations reveal significant gaps in the ability of current VLMs to grasp fundamental physical concepts, highlighting limitations in their suitability for reliable robot manipulation and pointing to key areas for targeted research. PAC Bench also serves as a standardized benchmark for rigorously evaluating physical reasoning in VLMs and guiding the development of more robust, physically grounded models for robotic applications. Project Page: https://pacbench.github.io/
- Abstract(参考訳): VLM(Vision-Language Models)は、物理推論、ポリシー生成、障害検出といったタスクを可能にする汎用ロボット操作において、ますます重要になっている。
しかし、これらの高レベルの応用におけるそれらの習熟度は、しばしば低レベルの物理的前提条件の深い理解を前提としており、これはほとんど検証されていない能力である。
ロボットが確実に行動を実行するためには、本質的な物体の性質(例えば、材料、重量)、アクションの余裕(例えば、把握可能、積み重ね可能)、物理的制約(例えば、安定性、到達可能性、閉ざされているような物体の状態)を理解する必要がある。
操作タスクにVLMが広く使用されているにもかかわらず、私たちは、既成モデルでは、トレーニング中にしばしば見過ごされるような、この粒度で物理的に根底的な理解が欠如しているのではないかと論じている。
PAC Benchは、タスク実行可能性の観点から、コアプロパティ、アフォードランス、制約(PAC)の理解に基づいてVLMを体系的に評価するための総合的なベンチマークである。
PAC Benchは、73の現実世界のイメージ(115のオブジェクトクラス、15のプロパティタイプ、1から3の価格)、100の現実世界のヒューマノイドビューシナリオ、120のユニークなシミュレーションされた制約シナリオを含む30,000以上のアノテーションを備えた多様なデータセットを備えている。
評価の結果,現在のVLMが基本的な物理概念を把握できること,信頼性の高いロボット操作に適したこと,対象とする研究の重要領域を指し示すこと,などの大きなギャップが明らかになった。
PAC Benchはまた、VLMの物理的推論を厳格に評価し、ロボットアプリケーションのためのより堅牢で物理的に基礎付けられたモデルの開発を導くための標準化されたベンチマークとしても機能している。
Project Page: https://pacbench.github.io/
関連論文リスト
- PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability [31.532470258146073]
本研究では,多種多様なロボット,すなわち空間物理到達可能性マップ(S-Pマップ)間での物理的な到達可能性の統一表現を提案する。
PhysVLMは、この到達可能性情報を視覚的推論に統合する視覚言語モデルである。
論文 参考訳(メタデータ) (2025-03-11T14:34:41Z) - Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation [29.541362796943837]
我々は1,496のタスクと119kの画像からなる大規模データセットであるLVIS-Affを導入し、知覚からの可視性推論の一般化性を高めることを目的とした。
我々は,Verbizable AttentionとBi-Fusionモジュールを組み込んだ,エンドツーエンドのトレーニング可能な価格推論モデルであるAfford-Xを開発した。
本研究は,タスク指向操作のためのローカルデバイスに展開可能な,効率的で汎用的な推論モデルの可能性を示す。
論文 参考訳(メタデータ) (2025-03-05T14:44:53Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。