Fugu-MT 論文翻訳(概要): MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?

論文の概要: MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?

arxiv url: http://arxiv.org/abs/2406.19693v1
Date: Fri, 28 Jun 2024 07:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 17:39:39.571661
Title: MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?
Title（参考訳）: MMRo:マルチモーダルLLMは家庭内ロボティクスの頭脳として使えるか?
Authors: Jinming Li, Yichen Zhu, Zhiyuan Xu, Jindong Gu, Minjie Zhu, Xin Liu, Ning Liu, Yaxin Peng, Feifei Feng, Jian Tang,
Abstract要約: 本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
参考スコア（独自算出の注目度）: 33.573056018368504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is fundamentally challenging for robots to serve as useful assistants in human environments because this requires addressing a spectrum of sub-problems across robotics, including perception, language understanding, reasoning, and planning. The recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated their exceptional abilities in solving complex mathematical problems, mastering commonsense and abstract reasoning. This has led to the recent utilization of MLLMs as the brain in robotic systems, enabling these models to conduct high-level planning prior to triggering low-level control actions for task execution. However, it remains uncertain whether existing MLLMs are reliable in serving the brain role of robots. In this study, we introduce the first benchmark for evaluating Multimodal LLM for Robotic (MMRo) benchmark, which tests the capability of MLLMs for robot applications. Specifically, we identify four essential capabilities perception, task planning, visual reasoning, and safety measurement that MLLMs must possess to qualify as the robot's central processing unit. We have developed several scenarios for each capability, resulting in a total of 14 metrics for evaluation. We present experimental results for various MLLMs, including both commercial and open-source models, to assess the performance of existing systems. Our findings indicate that no single model excels in all areas, suggesting that current MLLMs are not yet trustworthy enough to serve as the cognitive core for robots. Our data can be found in https://mm-robobench.github.io/.
Abstract（参考訳）: ロボットは、知覚、言語理解、推論、計画など、ロボット工学にまたがる様々なサブプロブレムに対処する必要があるため、人間の環境で有用なアシスタントとして機能することは基本的に困難である。 MLLM(Multimodal Large Language Models)の最近の進歩は、複雑な数学的問題を解き、コモンセンスと抽象的推論を習得する際、その例外的な能力を実証している。これによりMLLMをロボットシステムにおける脳として利用し、これらのモデルがタスク実行のための低レベル制御アクションをトリガーする前に高レベルな計画を実行できるようになる。しかし、既存のMLLMがロボットの脳の役割を担っているかどうかは不明である。本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。具体的には、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を同定する。それぞれの能力に関するいくつかのシナリオを開発しました。その結果、合計14のメトリクスが評価されます。本稿では,既存のシステムの性能を評価するために,商用モデルとオープンソースモデルの両方を含む各種MLLMの実験結果を示す。以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。私たちのデータはhttps://mm-robobench.github.io/で確認できます。

関連論文リスト

ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation [12.178807390472693]
VLM(Vision-Language Models)は、人工知能とロボティクスに革命をもたらした。ロボット操作では、VLMは主に高レベルプランナーとして使用されるが、最近の研究は、その低レベル推論能力についても研究している。 VLMの低レベルロボット操作推論能力を評価するために,新しいベンチマークManipBenchを提案する。
論文参考訳（メタデータ） (2025-05-14T18:01:00Z)
Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文参考訳（メタデータ） (2025-05-14T15:28:43Z)
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文参考訳（メタデータ） (2025-02-28T17:30:39Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Solving Robotics Problems in Zero-Shot with Vision-Language Models [0.0]
ゼロショット方式でロボットの問題を解くために設計された多エージェント視覚大言語モデル(VLLM)フレームワークであるWonderful Teamを紹介した。我々の文脈では、ゼロショットは、新しい環境において、ロボットの周囲のイメージとタスク記述を備えたVLLMを提供することを意味する。私たちのシステムは、操作、ゴールリーチ、視覚的推論といった多様なタスクを、すべてゼロショットで処理できる能力を示しています。
論文参考訳（メタデータ） (2024-07-26T21:18:57Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation [38.89586890052952]
我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
論文参考訳（メタデータ） (2024-06-06T17:59:47Z)
Large Language Models for Robotics: Opportunities, Challenges, and Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-09T03:22:16Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文参考訳（メタデータ） (2023-11-13T10:46:35Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-19T00:08:48Z)
Tiny Robot Learning: Challenges and Directions for Machine Learning in Resource-Constrained Robots [57.27442333662654]
機械学習(ML)は、コンピュータシステムにまたがる普及したツールとなっている。ティニー・ロボット・ラーニング(Tiny Robot Learning)とは、リソースに制約された低コストの自律ロボットにMLを配置する手法である。小型ロボット学習は、サイズ、重量、面積、パワー(SWAP)の制約によって困難にさらされる。本稿では,小型ロボットの学習空間を簡潔に調査し,重要な課題を詳述し,MLシステム設計における将来的な仕事の機会を提案する。
論文参考訳（メタデータ） (2022-05-11T19:36:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。