論文の概要: RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.01709v1
- Date: Sat, 03 May 2025 06:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.238028
- Title: RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation
- Title(参考訳): RoBridge: 汎用ロボットマニピュレーションのための認知と実行をブリッジする階層型アーキテクチャ
- Authors: Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang,
- Abstract要約: RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
- 参考スコア(独自算出の注目度): 90.81956345363355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operating robots in open-ended scenarios with diverse tasks is a crucial research and application direction in robotics. While recent progress in natural language processing and large multimodal models has enhanced robots' ability to understand complex instructions, robot manipulation still faces the procedural skill dilemma and the declarative skill dilemma in open environments. Existing methods often compromise cognitive and executive capabilities. To address these challenges, in this paper, we propose RoBridge, a hierarchical intelligent architecture for general robotic manipulation. It consists of a high-level cognitive planner (HCP) based on a large-scale pre-trained vision-language model (VLM), an invariant operable representation (IOR) serving as a symbolic bridge, and a generalist embodied agent (GEA). RoBridge maintains the declarative skill of VLM and unleashes the procedural skill of reinforcement learning, effectively bridging the gap between cognition and execution. RoBridge demonstrates significant performance improvements over existing baselines, achieving a 75% success rate on new tasks and an 83% average success rate in sim-to-real generalization using only five real-world data samples per task. This work represents a significant step towards integrating cognitive reasoning with physical execution in robotic systems, offering a new paradigm for general robotic manipulation.
- Abstract(参考訳): 多様なタスクを持つオープンエンドシナリオでのロボットの運用は、ロボット工学における重要な研究と応用の方向性である。
近年の自然言語処理と大規模マルチモーダルモデルの進歩により、ロボットの複雑な指示を理解する能力は向上しているが、ロボット操作は、オープン環境における手続き的スキルジレンマと宣言的スキルジレンマに直面している。
既存の手法は認知能力や経営能力を損なうことが多い。
本稿では,ロボット操作のための階層型インテリジェントアーキテクチャであるRoBridgeを提案する。
大規模事前訓練型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)、シンボルブリッジとして機能する不変オペラブル表現(IOR)、一般エンボディエージェント(GEA)から構成される。
RoBridgeはVLMの宣言的スキルを維持し、強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
RoBridgeは、既存のベースラインよりも大幅なパフォーマンス向上を示し、新しいタスクで75%の成功率と、タスクあたりの5つの実世界のデータサンプルを使用して、sim-to-realの一般化で平均83%の成功率を達成した。
この研究は、認知推論と物理的実行を統合するための重要なステップであり、一般的なロボット操作のための新しいパラダイムを提供する。
関連論文リスト
- RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。
計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。
タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。
ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文 参考訳(メタデータ) (2025-02-28T17:30:39Z) - RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World [18.44952696124717]
RoboMatrixは、オープンソースの環境でのスケーラブルなロボットタスク計画と実行のために設計された、スキル中心の階層型フレームワークである。
我々の研究の鍵となる革新は、1つのモデルに運動と操作の両方をシームレスに統合できる最初の統合視覚言語アクション(VLA)モデルの導入である。
論文 参考訳(メタデータ) (2024-11-29T17:36:03Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。