Fugu-MT 論文翻訳(概要): An Embodied Generalist Agent in 3D World

論文の概要: An Embodied Generalist Agent in 3D World

arxiv url: http://arxiv.org/abs/2311.12871v3
Date: Thu, 9 May 2024 17:35:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 18:09:14.994472
Title: An Embodied Generalist Agent in 3D World
Title（参考訳）: 3次元世界におけるエンボディード・ジェネリストエージェント
Authors: Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang,
Abstract要約: 本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。 3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
参考スコア（独自算出の注目度）: 67.16935110789528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Leveraging massive knowledge from large language models (LLMs), recent machine learning models show notable successes in general-purpose task solving in diverse domains such as computer vision and robotics. However, several significant challenges remain: (i) most of these models rely on 2D images yet exhibit a limited capacity for 3D input; (ii) these models rarely explore the tasks inherently defined in 3D world, e.g., 3D grounding, embodied reasoning and acting. We argue these limitations significantly hinder current models from performing real-world tasks and approaching general intelligence. To this end, we introduce LEO, an embodied multi-modal generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. LEO is trained with a unified task interface, model architecture, and objective in two stages: (i) 3D vision-language (VL) alignment and (ii) 3D vision-language-action (VLA) instruction tuning. We collect large-scale datasets comprising diverse object-level and scene-level tasks, which require considerable understanding of and interaction with the 3D world. Moreover, we meticulously design an LLM-assisted pipeline to produce high-quality 3D VL data. Through extensive experiments, we demonstrate LEO's remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, navigation and manipulation. Our ablative studies and scaling analyses further provide valuable insights for developing future embodied generalist agents. Code and data are available on project page.
Abstract（参考訳）: 大規模言語モデル(LLM)から大量の知識を活用することで、最近の機械学習モデルは、コンピュータビジョンやロボティクスといったさまざまな分野において、汎用的なタスク解決において顕著な成功を収めている。しかし、いくつかの重要な課題が残っている。 (i)これらのモデルのほとんどは2次元画像に依存しているが、3次元入力には限界がある。 (II)これらのモデルでは,3次元世界において本質的に定義された課題,例えば3次元グラウンド,具体的推論,行動の探索はめったに行われない。これらの制限は、現在のモデルが現実世界のタスクを実行したり、汎用知性に近づいたりすることを著しく妨げている、と我々は主張する。この目的のために,3次元世界における知覚,接地,推論,計画,行動の卓越したマルチモーダル・ジェネリストエージェントであるLEOを紹介した。 LEOは、統合されたタスクインターフェース、モデルアーキテクチャ、目的を2段階に分けて訓練されている。 (i)3次元視覚言語(VL)アライメントとアライメント (II)3次元視覚言語動作(VLA)命令チューニング。我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。さらに,高品質な3次元VLデータを生成するLLM支援パイプラインを慎重に設計する。 3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。本研究は, 将来の総合エージェント開発に有用な知見を提供するものである。コードとデータはプロジェクトページで公開されている。

関連論文リスト

Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [8.090058633054852]
ビジュアライゼーション・ランゲージ・アクション(VLA)モデルに3次元幾何学的特徴を暗黙的に注入するプラグイン・アンド・プレイ・モジュールを導入する。提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文参考訳（メタデータ） (2025-07-01T04:05:47Z)
LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation [68.80467240885642]
3D-VLのジェネラリストを開発する上で重要な障害は、効率的なシーン表現が欠如していることによる、データのスケーラビリティにある。本稿では,2次元知覚と3次元空間構造を橋渡しする効率的なシーン表現である,凝縮特徴格子(CFG)上に構築された3次元VLモデルLEO-VLを提案する。我々は、現実世界の屋内シーンの4つの領域と、キャプションや対話といった5つのタスクにまたがる700万以上の高品質な3D-VLデータをキュレートする。
論文参考訳（メタデータ） (2025-06-11T16:56:34Z)
Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文参考訳（メタデータ） (2025-03-29T09:34:16Z)
3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文参考訳（メタデータ） (2025-01-28T04:31:19Z)
ObjVariantEnsemble: Advancing Point Cloud LLM Evaluation in Challenging Scenes with Subtly Distinguished Objects [1.5408065585641535]
3Dシーンの理解は重要な課題であり、近年、エンボディドAIを強化するために、ポイントクラウドの3D表現とテキストとの整合性に関する研究の関心が高まっている。総合的な3Dベンチマークが欠如しているため、現実世界のシーン、特に微妙に区別されたオブジェクトに挑戦するシーンにおける3Dモデルの能力はいまだに十分に調査されていない。
論文参考訳（メタデータ） (2024-12-19T13:27:58Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。 OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-03-14T17:58:41Z)
M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文参考訳（メタデータ） (2023-12-17T16:53:30Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。