論文の概要: An Embodied Generalist Agent in 3D World
- arxiv url: http://arxiv.org/abs/2311.12871v2
- Date: Fri, 19 Apr 2024 14:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:07:00.278580
- Title: An Embodied Generalist Agent in 3D World
- Title(参考訳): 3次元世界におけるエンボディード・ジェネリストエージェント
- Authors: Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang,
- Abstract要約: 本稿では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを提案する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。
LEOの卓越した能力は,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など多岐にわたる。
- 参考スコア(独自算出の注目度): 67.16935110789528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging massive knowledge and learning schemes from large language models (LLMs), recent machine learning models show notable successes in building generalist agents that exhibit the capability of general-purpose task solving in diverse domains, including natural language processing, computer vision, and robotics. However, a significant challenge remains as these models exhibit limited ability in understanding and interacting with the 3D world. We argue this limitation significantly hinders the current models from performing real-world tasks and further achieving general intelligence. To this end, we introduce an embodied multi-modal and multi-task generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. Our proposed agent, referred to as LEO, is trained with shared LLM-based model architectures, objectives, and weights in two stages: (i) 3D vision-language alignment and (ii) 3D vision-language-action instruction tuning. To facilitate the training, we meticulously curate and generate an extensive dataset comprising object-level and scene-level multi-modal tasks with exceeding scale and complexity, necessitating a deep understanding of and interaction with the 3D world. Through rigorous experiments, we demonstrate LEO's remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, embodied navigation, and robotic manipulation. Our ablation results further provide valuable insights for the development of future embodied generalist agents.
- Abstract(参考訳): 大規模言語モデル(LLM)から膨大な知識と学習スキームを活用することで、最近の機械学習モデルは、自然言語処理、コンピュータビジョン、ロボット工学など、さまざまな領域で汎用的なタスク解決能力を示す汎用エージェントの構築において、顕著な成功を収めた。
しかし、これらのモデルが3Dの世界を理解し、相互作用する能力に制限があるため、大きな課題が残る。
この制限は、現在のモデルが現実世界のタスクを実行し、さらに汎用性を達成するのを著しく妨げている、と我々は主張する。
そこで本研究では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを導入する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。
(i)3次元視覚言語アライメント
(ii)3次元視覚-言語-行動調律。
学習を容易にするために,我々は,3次元世界との深い理解と相互作用を必要とする,スケールと複雑さを超越した,オブジェクトレベルおよびシーンレベルのマルチモーダルタスクからなる広範囲なデータセットを慎重にキュレートし,生成する。
厳密な実験を通じて,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など,多岐にわたるLEOの卓越した熟練度を実証した。
我々のアブレーションの結果はさらに、将来の具体化ジェネリストエージェントの開発に貴重な洞察を与えてくれる。
関連論文リスト
- LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。