論文の概要: RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.10221v2
- Date: Fri, 23 Feb 2024 15:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:58:46.272773
- Title: RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models
- Title(参考訳): RoboLLM:マルチモーダル大規模言語モデルに基づくロボットビジョンタスク
- Authors: Zijun Long and George Killick and Richard McCreadie and Gerardo Aragon
Camarasa
- Abstract要約: MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
- 参考スコア(独自算出の注目度): 4.4173427917548524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robotic vision applications often necessitate a wide range of visual
perception tasks, such as object detection, segmentation, and identification.
While there have been substantial advances in these individual tasks,
integrating specialized models into a unified vision pipeline presents
significant engineering challenges and costs. Recently, Multimodal Large
Language Models (MLLMs) have emerged as novel backbones for various downstream
tasks. We argue that leveraging the pre-training capabilities of MLLMs enables
the creation of a simplified framework, thus mitigating the need for
task-specific encoders. Specifically, the large-scale pretrained knowledge in
MLLMs allows for easier fine-tuning to downstream robotic vision tasks and
yields superior performance. We introduce the RoboLLM framework, equipped with
a BEiT-3 backbone, to address all visual perception tasks in the ARMBench
challenge-a large-scale robotic manipulation dataset about real-world warehouse
scenarios. RoboLLM not only outperforms existing baselines but also
substantially reduces the engineering burden associated with model selection
and tuning. The source code is publicly available at
https://github.com/longkukuhi/armbench.
- Abstract(参考訳): ロボットビジョンアプリケーションは、オブジェクトの検出、セグメンテーション、識別など、幅広い視覚的タスクを必要とすることが多い。
これらの個々のタスクにはかなりの進歩があったが、特殊モデルを統一されたビジョンパイプラインに統合することは、重要なエンジニアリング上の課題とコストをもたらす。
近年,マルチモーダル大規模言語モデル (MLLM) が下流タスクの新しいバックボーンとして登場している。
MLLMの事前学習機能を利用することで、単純化されたフレームワークの作成が可能であり、タスク固有のエンコーダの必要性を軽減できると主張している。
具体的には、MLLMの大規模事前訓練された知識により、下流のロボットビジョンタスクの微調整が容易になり、優れたパフォーマンスが得られる。
我々は,実世界の倉庫シナリオに関する大規模ロボット操作データセットであるARMBench Challengeにおける視覚知覚タスクに,BEiT-3バックボーンを備えたRoboLLMフレームワークを導入する。
RoboLLMは既存のベースラインを上回るだけでなく、モデル選択やチューニングに関連するエンジニアリングの負担を大幅に削減する。
ソースコードはhttps://github.com/longkukuhi/armbenchで公開されている。
関連論文リスト
- GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Large Language Models for Robotics: Opportunities, Challenges, and
Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。
ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。
本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T03:22:16Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。