論文の概要: Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
- arxiv url: http://arxiv.org/abs/2506.00123v1
- Date: Fri, 30 May 2025 18:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.376616
- Title: Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
- Title(参考訳): ビジュアル・エンボディード・ブレイン:マルチモーダルな大言語モデルを宇宙で見る、考える、制御できる
- Authors: Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu,
- Abstract要約: VeBrainは、現実世界における認識、推論、制御のための統一されたフレームワークである。
VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成する。
VeBrainは、既存の方法と比較して、強い適応性、柔軟性、および構成能力を示している。
- 参考スコア(独自算出の注目度): 90.96731971685115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable progress of Multimodal Large Language Models (MLLMs) has attracted increasing attention to extend them to physical entities like legged robot. This typically requires MLLMs to not only grasp multimodal understanding abilities, but also integrate visual-spatial reasoning and physical interaction capabilities. Nevertheless,existing methods struggle to unify these capabilities due to their fundamental differences.In this paper, we present the Visual Embodied Brain (VeBrain), a unified framework for perception, reasoning, and control in real world. VeBrain reformulates robotic control into common text-based MLLM tasks in the 2D visual space, thus unifying the objectives and mapping spaces of different tasks. Then, a novel robotic adapter is proposed to convert textual control signals from MLLMs to motion policies of real robots. From the data perspective, we further introduce VeBrain-600k, a high-quality instruction dataset encompassing various capabilities of VeBrain. In VeBrain-600k, we take hundreds of hours to collect, curate and annotate the data, and adopt multimodal chain-of-thought(CoT) to mix the different capabilities into a single conversation. Extensive experiments on 13 multimodal benchmarks and 5 spatial intelligence benchmarks demonstrate the superior performance of VeBrain to existing MLLMs like Qwen2.5-VL. When deployed to legged robots and robotic arms, VeBrain shows strong adaptability, flexibility, and compositional capabilities compared to existing methods. For example, compared to Qwen2.5-VL, VeBrain not only achieves substantial gains on MMVet by +5.6%, but also excels in legged robot tasks with +50% average gains.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の顕著な進歩は、脚付きロボットのような物理的エンティティに拡張するために注目が集まっている。
これは通常、MLLMはマルチモーダル理解能力だけでなく、視覚空間推論と物理的相互作用能力を統合する必要がある。
それにもかかわらず、既存の手法は、その基本的な相違によりこれらの能力の統合に苦慮し、本研究では、現実世界における知覚、推論、制御のための統一された枠組みである視覚身体脳(VeBrain)を提示する。
VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成し、異なるタスクの目的とマッピング空間を統一する。
そこで,MLLMからのテキスト制御信号をリアルロボットの動作ポリシーに変換するために,新しいロボットアダプタを提案する。
データの観点からは、VeBrainのさまざまな機能を含む高品質な命令データセットであるVeBrain-600kについても紹介する。
VeBrain-600kでは、データを収集、キュレート、注釈付けし、マルチモーダルチェーン(CoT)を採用して、さまざまな機能をひとつの会話に混ぜるのに何百時間もかかります。
13のマルチモーダルベンチマークと5つの空間的インテリジェンスベンチマークに関する大規模な実験は、Qwen2.5-VLのような既存のMLLMよりもVeBrainの優れた性能を示している。
脚のあるロボットやロボットアームに配備されると、VeBrainは既存の方法と比較して、適応性、柔軟性、および構成能力を示す。
例えば、Qwen2.5-VLと比較すると、VeBrainはMMVetで+5.6%の利得を達成するだけでなく、平均利得が+50%の履行されたロボットタスクにも優れている。
関連論文リスト
- RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。
計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。
タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。
ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文 参考訳(メタデータ) (2025-02-28T17:30:39Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。
メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。
ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。