論文の概要: An Embodied Generalist Agent in 3D World
- arxiv url: http://arxiv.org/abs/2311.12871v1
- Date: Sat, 18 Nov 2023 01:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:04:36.160601
- Title: An Embodied Generalist Agent in 3D World
- Title(参考訳): 3次元世界におけるエンボディード・ジェネリストエージェント
- Authors: Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li,
Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang
- Abstract要約: 本稿では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを提案する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。
LEOの卓越した能力は,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など多岐にわたる。
- 参考スコア(独自算出の注目度): 69.4042892362275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging massive knowledge and learning schemes from large language models
(LLMs), recent machine learning models show notable successes in building
generalist agents that exhibit the capability of general-purpose task solving
in diverse domains, including natural language processing, computer vision, and
robotics. However, a significant challenge remains as these models exhibit
limited ability in understanding and interacting with the 3D world. We argue
this limitation significantly hinders the current models from performing
real-world tasks and further achieving general intelligence. To this end, we
introduce an embodied multi-modal and multi-task generalist agent that excels
in perceiving, grounding, reasoning, planning, and acting in the 3D world. Our
proposed agent, referred to as LEO, is trained with shared LLM-based model
architectures, objectives, and weights in two stages: (i) 3D vision-language
alignment and (ii) 3D vision-language-action instruction tuning. To facilitate
the training, we meticulously curate and generate an extensive dataset
comprising object-level and scene-level multi-modal tasks with exceeding scale
and complexity, necessitating a deep understanding of and interaction with the
3D world. Through rigorous experiments, we demonstrate LEO's remarkable
proficiency across a wide spectrum of tasks, including 3D captioning, question
answering, embodied reasoning, embodied navigation, and robotic manipulation.
Our ablation results further provide valuable insights for the development of
future embodied generalist agents.
- Abstract(参考訳): 大規模言語モデル(LLM)から膨大な知識と学習スキームを活用することで、最近の機械学習モデルは、自然言語処理、コンピュータビジョン、ロボット工学など、さまざまな領域で汎用的なタスク解決能力を示す汎用エージェントの構築において、顕著な成功を収めた。
しかし、これらのモデルが3Dの世界を理解し、相互作用する能力に制限があるため、大きな課題が残る。
この制限は、現在のモデルが現実世界のタスクを実行し、さらに汎用性を達成するのを著しく妨げていると我々は主張する。
この目的のために,3次元の世界において知覚,接地,推論,計画,行動に優れた具体化されたマルチモーダルおよびマルチタスク汎用エージェントを提案する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重量を2段階に分けて学習する。
(i)3次元視覚言語アライメント及び
(ii)3次元視覚言語動作命令チューニング。
トレーニングを容易にするために,我々は,オブジェクトレベルおよびシーンレベルのマルチモーダルタスクからなる広範なデータセットを,スケールと複雑性を超越して細心の注意を払ってキュレートし,作成する。
厳密な実験を通じて,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など,多岐にわたるLEOの卓越した熟練度を実証した。
我々のアブレーションの結果はさらに、将来の具体化ジェネリストエージェントの開発に貴重な洞察を与える。
関連論文リスト
- 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in
Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。
LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。
我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文 参考訳(メタデータ) (2023-10-20T03:22:05Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Joint Supervised and Self-Supervised Learning for 3D Real-World
Challenges [16.328866317851187]
ポイントクラウド処理と3D形状理解は、ディープラーニング技術が大きな可能性を実証する難しいタスクである。
ここでは、データ不足と大きなドメインギャップにより教師付き学習が失敗する合成および実世界の点雲を含むいくつかのシナリオについて考察する。
形状分類や部分分割の主課題を学習しながら3次元パズルを解くマルチタスクモデルにより、自己超越を利用して、標準的な特徴表現を豊かにすることを提案する。
論文 参考訳(メタデータ) (2020-04-15T23:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。