Fugu-MT 論文翻訳(概要): Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

論文の概要: Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

arxiv url: http://arxiv.org/abs/2506.00123v1
Date: Fri, 30 May 2025 18:00:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:32.376616
Title: Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
Title（参考訳）: ビジュアル・エンボディード・ブレイン:マルチモーダルな大言語モデルを宇宙で見る、考える、制御できる
Authors: Gen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu,
Abstract要約: VeBrainは、現実世界における認識、推論、制御のための統一されたフレームワークである。 VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成する。 VeBrainは、既存の方法と比較して、強い適応性、柔軟性、および構成能力を示している。
参考スコア（独自算出の注目度）: 90.96731971685115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The remarkable progress of Multimodal Large Language Models (MLLMs) has attracted increasing attention to extend them to physical entities like legged robot. This typically requires MLLMs to not only grasp multimodal understanding abilities, but also integrate visual-spatial reasoning and physical interaction capabilities. Nevertheless,existing methods struggle to unify these capabilities due to their fundamental differences.In this paper, we present the Visual Embodied Brain (VeBrain), a unified framework for perception, reasoning, and control in real world. VeBrain reformulates robotic control into common text-based MLLM tasks in the 2D visual space, thus unifying the objectives and mapping spaces of different tasks. Then, a novel robotic adapter is proposed to convert textual control signals from MLLMs to motion policies of real robots. From the data perspective, we further introduce VeBrain-600k, a high-quality instruction dataset encompassing various capabilities of VeBrain. In VeBrain-600k, we take hundreds of hours to collect, curate and annotate the data, and adopt multimodal chain-of-thought(CoT) to mix the different capabilities into a single conversation. Extensive experiments on 13 multimodal benchmarks and 5 spatial intelligence benchmarks demonstrate the superior performance of VeBrain to existing MLLMs like Qwen2.5-VL. When deployed to legged robots and robotic arms, VeBrain shows strong adaptability, flexibility, and compositional capabilities compared to existing methods. For example, compared to Qwen2.5-VL, VeBrain not only achieves substantial gains on MMVet by +5.6%, but also excels in legged robot tasks with +50% average gains.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の顕著な進歩は、脚付きロボットのような物理的エンティティに拡張するために注目が集まっている。これは通常、MLLMはマルチモーダル理解能力だけでなく、視覚空間推論と物理的相互作用能力を統合する必要がある。それにもかかわらず、既存の手法は、その基本的な相違によりこれらの能力の統合に苦慮し、本研究では、現実世界における知覚、推論、制御のための統一された枠組みである視覚身体脳(VeBrain)を提示する。 VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成し、異なるタスクの目的とマッピング空間を統一する。そこで,MLLMからのテキスト制御信号をリアルロボットの動作ポリシーに変換するために,新しいロボットアダプタを提案する。データの観点からは、VeBrainのさまざまな機能を含む高品質な命令データセットであるVeBrain-600kについても紹介する。 VeBrain-600kでは、データを収集、キュレート、注釈付けし、マルチモーダルチェーン(CoT)を採用して、さまざまな機能をひとつの会話に混ぜるのに何百時間もかかります。 13のマルチモーダルベンチマークと5つの空間的インテリジェンスベンチマークに関する大規模な実験は、Qwen2.5-VLのような既存のMLLMよりもVeBrainの優れた性能を示している。脚のあるロボットやロボットアームに配備されると、VeBrainは既存の方法と比較して、適応性、柔軟性、および構成能力を示す。例えば、Qwen2.5-VLと比較すると、VeBrainはMMVetで+5.6%の利得を達成するだけでなく、平均利得が+50%の履行されたロボットタスクにも優れている。

関連論文リスト

Instruction-Tuned Video-Audio Models Elucidate Functional Specialization in the Brain [25.98830728450583]
マルチモーダル大言語モデル(MLLM)は、単言語モデルと比較して脳のアライメントの程度が高い。命令調整型ビデオMLLMは,非命令調整型マルチモーダルモデルや非モーダルモデルよりも有意に優れていることを示す。言語誘導命令を用いたビデオと音声のタスクに対するMLLMの評価は,MLLMのタスク固有表現に明確に絡み合っていることを示す。
論文参考訳（メタデータ） (2025-06-09T22:48:36Z)
Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain) [22.244699182222824]
トランスフォーマーベースの言語モデルは、明らかに脳の録音を模倣するために訓練されていないが、脳の活動と驚くほど一致していることが示されている。近年,オープンエンド型マルチモーダルビジョンタスクにおけるゼロショット機能を示す,命令調整型マルチモーダルLLMの新たなクラスが出現している。 MLLMが自然の指示で誘導されると、脳のアライメントが向上し、命令固有の表現を効果的に捉えることができるかを検討する。
論文参考訳（メタデータ） (2025-05-26T14:18:15Z)
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文参考訳（メタデータ） (2025-02-28T17:30:39Z)
MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文参考訳（メタデータ） (2024-06-28T07:09:06Z)
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。 VoTはLLMの空間的推論能力を著しく向上させる。
論文参考訳（メタデータ） (2024-04-04T17:45:08Z)
Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文参考訳（メタデータ） (2024-01-02T01:54:22Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-19T00:08:48Z)
Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文参考訳（メタデータ） (2022-08-17T12:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。