論文の概要: RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.10221v2
- Date: Fri, 23 Feb 2024 15:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:58:46.272773
- Title: RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models
- Title(参考訳): RoboLLM:マルチモーダル大規模言語モデルに基づくロボットビジョンタスク
- Authors: Zijun Long and George Killick and Richard McCreadie and Gerardo Aragon
Camarasa
- Abstract要約: MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
- 参考スコア(独自算出の注目度): 4.4173427917548524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robotic vision applications often necessitate a wide range of visual
perception tasks, such as object detection, segmentation, and identification.
While there have been substantial advances in these individual tasks,
integrating specialized models into a unified vision pipeline presents
significant engineering challenges and costs. Recently, Multimodal Large
Language Models (MLLMs) have emerged as novel backbones for various downstream
tasks. We argue that leveraging the pre-training capabilities of MLLMs enables
the creation of a simplified framework, thus mitigating the need for
task-specific encoders. Specifically, the large-scale pretrained knowledge in
MLLMs allows for easier fine-tuning to downstream robotic vision tasks and
yields superior performance. We introduce the RoboLLM framework, equipped with
a BEiT-3 backbone, to address all visual perception tasks in the ARMBench
challenge-a large-scale robotic manipulation dataset about real-world warehouse
scenarios. RoboLLM not only outperforms existing baselines but also
substantially reduces the engineering burden associated with model selection
and tuning. The source code is publicly available at
https://github.com/longkukuhi/armbench.
- Abstract(参考訳): ロボットビジョンアプリケーションは、オブジェクトの検出、セグメンテーション、識別など、幅広い視覚的タスクを必要とすることが多い。
これらの個々のタスクにはかなりの進歩があったが、特殊モデルを統一されたビジョンパイプラインに統合することは、重要なエンジニアリング上の課題とコストをもたらす。
近年,マルチモーダル大規模言語モデル (MLLM) が下流タスクの新しいバックボーンとして登場している。
MLLMの事前学習機能を利用することで、単純化されたフレームワークの作成が可能であり、タスク固有のエンコーダの必要性を軽減できると主張している。
具体的には、MLLMの大規模事前訓練された知識により、下流のロボットビジョンタスクの微調整が容易になり、優れたパフォーマンスが得られる。
我々は,実世界の倉庫シナリオに関する大規模ロボット操作データセットであるARMBench Challengeにおける視覚知覚タスクに,BEiT-3バックボーンを備えたRoboLLMフレームワークを導入する。
RoboLLMは既存のベースラインを上回るだけでなく、モデル選択やチューニングに関連するエンジニアリングの負担を大幅に削減する。
ソースコードはhttps://github.com/longkukuhi/armbenchで公開されている。
関連論文リスト
- Solving Robotics Problems in Zero-Shot with Vision-Language Models [0.0]
ゼロショット方式でロボットの問題を解くために設計された多エージェント視覚大言語モデル(VLLM)フレームワークであるWonderful Teamを紹介した。
我々の文脈では、ゼロショットは、新しい環境において、ロボットの周囲のイメージとタスク記述を備えたVLLMを提供することを意味する。
私たちのシステムは、操作、ゴールリーチ、視覚的推論といった多様なタスクを、すべてゼロショットで処理できる能力を示しています。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。
我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。
以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文 参考訳(メタデータ) (2024-06-28T07:09:06Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Large Language Models for Robotics: Opportunities, Challenges, and
Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。
ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。
本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T03:22:16Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。