論文の概要: RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation
- arxiv url: http://arxiv.org/abs/2506.06677v1
- Date: Sat, 07 Jun 2025 06:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.423796
- Title: RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation
- Title(参考訳): RoboCerebra: ロボットマニピュレーション評価のための大規模ベンチマーク
- Authors: Songhao Han, Boxiang Qiu, Yue Liao, Siyuan Huang, Chen Gao, Shuicheng Yan, Si Liu,
- Abstract要約: 長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
- 参考スコア(独自算出の注目度): 80.20970723577818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have enabled instruction-conditioned robotic systems with improved generalization. However, most existing work focuses on reactive System 1 policies, underutilizing VLMs' strengths in semantic reasoning and long-horizon planning. These System 2 capabilities-characterized by deliberative, goal-directed thinking-remain under explored due to the limited temporal scale and structural complexity of current benchmarks. To address this gap, we introduce RoboCerebra, a benchmark for evaluating high-level reasoning in long-horizon robotic manipulation. RoboCerebra includes: (1) a large-scale simulation dataset with extended task horizons and diverse subtask sequences in household environments; (2) a hierarchical framework combining a high-level VLM planner with a low-level vision-language-action (VLA) controller; and (3) an evaluation protocol targeting planning, reflection, and memory through structured System 1-System 2 interaction. The dataset is constructed via a top-down pipeline, where GPT generates task instructions and decomposes them into subtask sequences. Human operators execute the subtasks in simulation, yielding high-quality trajectories with dynamic object variations. Compared to prior benchmarks, RoboCerebra features significantly longer action sequences and denser annotations. We further benchmark state-of-the-art VLMs as System 2 modules and analyze their performance across key cognitive dimensions, advancing the development of more capable and generalizable robotic planners.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、一般化を改善した命令条件付きロボットシステムを実現している。
しかしながら、既存のほとんどの研究はリアクティブシステム1ポリシーに焦点を当てており、セマンティック推論や長期計画におけるVLMの強みを過小評価している。
これらのシステム2の能力は、現在のベンチマークの時間的スケールと構造的複雑さの制限により、検討中の熟考的、目標指向の思考に特徴付けられる。
このギャップに対処するために、長い水平ロボット操作における高レベルの推論を評価するためのベンチマークであるRoboCerebraを紹介する。
RoboCerebraは,(1)ホーム環境におけるタスクホライズと多様なサブタスクシーケンスを備えた大規模シミュレーションデータセット,(2)高レベルなVLMプランナと低レベルなビジョン言語アクション(VLA)コントローラを組み合わせた階層的フレームワーク,(3)構造化されたシステム1-システム2インタラクションによる計画,リフレクション,メモリを対象とした評価プロトコルを含む。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
人間のオペレーターはシミュレーションでサブタスクを実行し、動的オブジェクトの変動を伴う高品質な軌道を生成する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
さらに、システム2モジュールとして最先端のVLMをベンチマークし、その性能を重要な認知次元にわたって分析し、より有能で汎用的なロボットプランナーの開発を進める。
関連論文リスト
- LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks [31.3295171851909]
実世界のエンボディエージェントは、マルチステップソリューションを必要とするハイレベルな目標に直面します。
ロングホライゾンタスクは、ハイレベルなタスクプランニングと低レベルなモーションコントロールを必要とする。
我々は,LoHoVLAと呼ばれる長期タスクのための統合視覚言語フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-31T06:01:03Z) - RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。
シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-04-02T19:02:08Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM [0.26334346517416873]
VLA(Vision-Language-Action)モデルでは、視覚コンテキストと言語コマンドを統合することで、ロボットが複雑なタスクを実行できる。
これを解決するために,デュアルプロセス理論に着想を得た階層型フレームワークであるDual Process VLA(DP-VLA)を提案する。
RoboCasaデータセットの実験結果は、DP-VLAがより高速な推論とより高いタスク成功率を達成することを示した。
論文 参考訳(メタデータ) (2024-10-21T00:36:02Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。