論文の概要: Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain
- arxiv url: http://arxiv.org/abs/2510.17801v1
- Date: Mon, 20 Oct 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.138661
- Title: Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain
- Title(参考訳): Robobench: マルチモーダルな大規模言語モデルに対する総合的な評価ベンチマーク
- Authors: Yulin Luo, Chun-Kai Fan, Menghang Dong, Jiayu Shi, Mengdi Zhao, Bo-Wen Zhang, Cheng Chi, Jiaming Liu, Gaole Dai, Rongyu Zhang, Ruichuan An, Kun Wu, Zhengping Che, Shaoxuan Xie, Guocai Yao, Zhongxia Zhao, Pengwei Wang, Guang Liu, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang,
- Abstract要約: 動的で非構造的な環境で知覚、理性、行動できるロボットを構築することは、依然として中核的な課題である。
システム2は高レベルの推論を処理し、システム1は低レベルの制御を実行する。
本稿では,マルチモーダル大言語モデル(MLLM)を具体的脳として体系的に評価するベンチマークであるRoboBenchを紹介する。
- 参考スコア(独自算出の注目度): 62.01012517796797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building robots that can perceive, reason, and act in dynamic, unstructured environments remains a core challenge. Recent embodied systems often adopt a dual-system paradigm, where System 2 handles high-level reasoning while System 1 executes low-level control. In this work, we refer to System 2 as the embodied brain, emphasizing its role as the cognitive core for reasoning and decision-making in manipulation tasks. Given this role, systematic evaluation of the embodied brain is essential. Yet existing benchmarks emphasize execution success, or when targeting high-level reasoning, suffer from incomplete dimensions and limited task realism, offering only a partial picture of cognitive capability. To bridge this gap, we introduce RoboBench, a benchmark that systematically evaluates multimodal large language models (MLLMs) as embodied brains. Motivated by the critical roles across the full manipulation pipeline, RoboBench defines five dimensions-instruction comprehension, perception reasoning, generalized planning, affordance prediction, and failure analysis-spanning 14 capabilities, 25 tasks, and 6092 QA pairs. To ensure realism, we curate datasets across diverse embodiments, attribute-rich objects, and multi-view scenes, drawing from large-scale real robotic data. For planning, RoboBench introduces an evaluation framework, MLLM-as-world-simulator. It evaluate embodied feasibility by simulating whether predicted plans can achieve critical object-state changes. Experiments on 14 MLLMs reveal fundamental limitations: difficulties with implicit instruction comprehension, spatiotemporal reasoning, cross-scenario planning, fine-grained affordance understanding, and execution failure diagnosis. RoboBench provides a comprehensive scaffold to quantify high-level cognition, and guide the development of next-generation embodied MLLMs. The project page is in https://robo-bench.github.io.
- Abstract(参考訳): 動的で非構造的な環境で知覚、理性、行動できるロボットを構築することは、依然として中核的な課題である。
システム2は高レベルの推論を処理し、システム1は低レベルの制御を実行する。
本研究では,システム2を具体化脳と呼び,操作作業における推論と意思決定の認知的コアとしての役割を強調した。
この役割から、エンボディド脳の体系的な評価が不可欠である。
しかし、既存のベンチマークでは、実行の成功、あるいはハイレベルな推論を目標とする場合には、不完全な次元と限られたタスクリアリズムに悩まされ、認知能力の部分的な図のみを提供する。
このギャップを埋めるために,マルチモーダル大言語モデル(MLLM)を具体的脳として体系的に評価するベンチマークであるRoboBenchを導入する。
完全な操作パイプライン全体において重要な役割を担ったRoboBench氏は、5次元のインストラクション理解、知覚推論、一般化計画、アベイランス予測、障害解析スパンニング14機能、25タスク、6092QAペアを定義する。
現実性を確保するため、さまざまな実施形態、属性リッチオブジェクト、マルチビューシーンにまたがってデータセットをキュレートし、大規模でリアルなロボットデータから描画する。
計画のため、RoboBench氏はMLLM-as-world-simulatorという評価フレームワークを導入した。
予測された計画が重要なオブジェクト状態の変化を達成できるかどうかをシミュレートすることで実現可能性を評価する。
14のMLLMの実験では、暗黙の命令理解の困難、時空間推論、クロスシナリオ計画、きめ細かい可視性理解、実行失敗診断といった基本的な制限が明らかになった。
RoboBenchは、ハイレベル認知を定量化し、次世代のMLLMの開発を導くための総合的な足場を提供する。
プロジェクトのページはhttps://robo-bench.github.io.comにある。
関連論文リスト
- RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Think, Reflect, Create: Metacognitive Learning for Zero-Shot Robotic Planning with LLMs [3.0067862210362284]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
メタ認知学習をLLMによるマルチロボットコラボレーションに統合するフレームワークを提案する。
より困難なロボットベンチマークタスクを提案し、既存のベンチマークと新しいタスクに関する我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2025-05-20T20:51:18Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - REFLECT: Summarizing Robot Experiences for Failure Explanation and
Correction [28.015693808520496]
REFLECTは、ロボットの過去の経験の階層的な要約に基づいて、失敗推論のための大規模言語モデルをクエリするフレームワークである。
本稿では,REFLECTが修正計画の立案に役立てる情報的失敗の説明を生成できることを示す。
論文 参考訳(メタデータ) (2023-06-27T18:03:15Z) - LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。
メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。
ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。