論文の概要: FrankenBot: Brain-Morphic Modular Orchestration for Robotic Manipulation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.21627v1
- Date: Tue, 24 Jun 2025 14:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.940476
- Title: FrankenBot: Brain-Morphic Modular Orchestration for Robotic Manipulation with Vision-Language Models
- Title(参考訳): FrankenBot:視覚言語モデルを用いたロボットマニピュレーションのための脳形態的モジュールオーケストレーション
- Authors: Shiyi Wang, Wenbo Li, Yiteng Chen, Qingyao Wu, Huiping Zhuang,
- Abstract要約: VLM(Vision-Language Models)は豊かな世界知識を獲得し、例外的なシーン理解とマルチモーダル推論能力を示している。
本稿では,VLM駆動型脳型ロボット操作フレームワークであるFrankenBotを提案する。
- 参考スコア(独自算出の注目度): 35.83717913117858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing a general robot manipulation system capable of performing a wide range of tasks in complex, dynamic, and unstructured real-world environments has long been a challenging task. It is widely recognized that achieving human-like efficiency and robustness manipulation requires the robotic brain to integrate a comprehensive set of functions, such as task planning, policy generation, anomaly monitoring and handling, and long-term memory, achieving high-efficiency operation across all functions. Vision-Language Models (VLMs), pretrained on massive multimodal data, have acquired rich world knowledge, exhibiting exceptional scene understanding and multimodal reasoning capabilities. However, existing methods typically focus on realizing only a single function or a subset of functions within the robotic brain, without integrating them into a unified cognitive architecture. Inspired by a divide-and-conquer strategy and the architecture of the human brain, we propose FrankenBot, a VLM-driven, brain-morphic robotic manipulation framework that achieves both comprehensive functionality and high operational efficiency. Our framework includes a suite of components, decoupling a part of key functions from frequent VLM calls, striking an optimal balance between functional completeness and system efficiency. Specifically, we map task planning, policy generation, memory management, and low-level interfacing to the cortex, cerebellum, temporal lobe-hippocampus complex, and brainstem, respectively, and design efficient coordination mechanisms for the modules. We conducted comprehensive experiments in both simulation and real-world robotic environments, demonstrating that our method offers significant advantages in anomaly detection and handling, long-term memory, operational efficiency, and stability -- all without requiring any fine-tuning or retraining.
- Abstract(参考訳): 複雑で動的で非構造的な現実世界環境において、幅広いタスクをこなせる汎用ロボット操作システムの開発は、長年の課題であった。
ヒューマンライクな効率性とロバスト性操作を達成するためには、ロボット脳はタスク計画、ポリシー生成、異常監視とハンドリング、長期記憶などの包括的な機能群を統合する必要があり、すべての機能にわたって高い効率動作を達成する必要があることが広く認識されている。
膨大なマルチモーダルデータに基づいて事前訓練された視覚言語モデル(VLM)は、優れたシーン理解とマルチモーダル推論能力を示す、豊かな世界知識を獲得している。
しかし、既存の手法は通常、単一の機能またはロボット脳内の機能のサブセットのみを実現することに重点を置いており、それらを統合された認知アーキテクチャに統合することはなかった。
本稿では,VLM駆動型脳型ロボット操作フレームワークであるFrankenBotを提案する。
我々のフレームワークはコンポーネントの集合を含み、頻繁に発生するVLM呼び出しから重要な関数の一部を分離し、機能完全性とシステム効率の最適なバランスを保ちます。
具体的には, タスク計画, ポリシー生成, メモリ管理, 小脳, 側頭葉-海馬複合体, 脳幹に面した低レベル相互作用をマップし, モジュールの効率的な調整機構を設計する。
我々はシミュレーションと実世界のロボット環境で総合的な実験を行い、我々の手法が異常検出とハンドリング、長期記憶、運用効率、安定性に大きな利点をもたらすことを実証した。
関連論文リスト
- RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills [31.788094786664324]
現実の具体的タスクにおいて人間レベルのパフォーマンスを達成することができる自律ロボットエージェントを構築することは、ヒューマノイドロボット研究の究極の目標である。
近年の進歩は、ファンデーションモデル(FM)によるハイレベル認知と、ヒューマノイドロボットの低レベルスキル開発に大きな進歩をもたらした。
本稿では,FMとモジュール型スキルライブラリを統合する階層型エージェントフレームワークであるBeat-0を紹介する。
being-0は、器用な手とアクティブなビジョンを備えたフルサイズのヒューマノイドロボット上で、効率的でリアルタイムなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-16T14:53:53Z) - RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。
計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。
タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。
ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文 参考訳(メタデータ) (2025-02-28T17:30:39Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Learning compositional models of robot skills for task and motion
planning [39.36562555272779]
センサモレータプリミティブを用いて複雑な長距離操作問題を解決することを学ぶ。
能動的学習とサンプリングに最先端の手法を用いる。
我々は,選択した原始行動の質を計測することで,シミュレーションと実世界の双方でアプローチを評価する。
論文 参考訳(メタデータ) (2020-06-08T20:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。