論文の概要: ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.09698v1
- Date: Wed, 14 May 2025 18:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.05528
- Title: ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation
- Title(参考訳): ManipBench:低レベルロボットマニピュレーションのためのビジョンランゲージモデルのベンチマーク
- Authors: Enyu Zhao, Vedant Raval, Hejia Zhang, Jiageng Mao, Zeyu Shangguan, Stefanos Nikolaidis, Yue Wang, Daniel Seita,
- Abstract要約: VLM(Vision-Language Models)は、人工知能とロボティクスに革命をもたらした。
ロボット操作では、VLMは主に高レベルプランナーとして使用されるが、最近の研究は、その低レベル推論能力についても研究している。
VLMの低レベルロボット操作推論能力を評価するために,新しいベンチマークManipBenchを提案する。
- 参考スコア(独自算出の注目度): 12.178807390472693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have revolutionized artificial intelligence and robotics due to their commonsense reasoning capabilities. In robotic manipulation, VLMs are used primarily as high-level planners, but recent work has also studied their lower-level reasoning ability, which refers to making decisions about precise robot movements. However, the community currently lacks a clear and common benchmark that can evaluate how well VLMs can aid low-level reasoning in robotics. Consequently, we propose a novel benchmark, ManipBench, to evaluate the low-level robot manipulation reasoning capabilities of VLMs across various dimensions, including how well they understand object-object interactions and deformable object manipulation. We extensively test 33 representative VLMs across 10 model families on our benchmark, including variants to test different model sizes. Our evaluation shows that the performance of VLMs significantly varies across tasks, and there is a strong correlation between this performance and trends in our real-world manipulation tasks. It also shows that there remains a significant gap between these models and human-level understanding. See our website at: https://manipbench.github.io.
- Abstract(参考訳): VLM(Vision-Language Models)は、人工知能とロボティクスに革命をもたらした。
ロボット操作では、VLMは主に高レベルプランナーとして使用されるが、最近の研究は、ロボットの動きを正確に決定する下層推論能力についても研究している。
しかし現時点では、VLMがロボット工学の低レベル推論にどの程度役立つかを評価するための、明確で一般的なベンチマークが欠落している。
そこで本研究では,対象物間相互作用や変形可能なオブジェクト操作など,VLMの低レベルロボット操作推論能力を評価するための,新しいベンチマークManipBenchを提案する。
ベンチマークでは、異なるモデルサイズをテストする変種を含む、10のモデルファミリーで33の代表的なVLMを広範囲にテストした。
評価の結果、VLMの性能はタスクによって大きく異なり、実世界の操作タスクにおけるこのパフォーマンスとトレンドとの間には強い相関関係があることが示されている。
また、これらのモデルと人間レベルの理解の間には大きなギャップがあることも示している。
当社のWebサイトは以下の通り。
関連論文リスト
- Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。
我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。
以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文 参考訳(メタデータ) (2024-06-28T07:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。