Fugu-MT 論文翻訳(概要): MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

論文の概要: MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

arxiv url: http://arxiv.org/abs/2401.08577v1
Date: Tue, 16 Jan 2024 18:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 18:41:15.249107
Title: MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World
Title（参考訳）: MultiPLY:3次元世界における多感覚オブジェクト中心型大規模言語モデル
Authors: Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan
Abstract要約: マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
参考スコア（独自算出の注目度）: 55.878173953175356
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Human beings possess the capability to multiply a melange of multisensory cues while actively exploring and interacting with the 3D world. Current multi-modal large language models, however, passively absorb sensory data as inputs, lacking the capacity to actively interact with the objects in the 3D environment and dynamically collect their multisensory information. To usher in the study of this area, we propose MultiPLY, a multisensory embodied large language model that could incorporate multisensory interactive data, including visual, audio, tactile, and thermal information into large language models, thereby establishing the correlation among words, actions, and percepts. To this end, we first collect Multisensory Universe, a large-scale multisensory interaction dataset comprising 500k data by deploying an LLM-powered embodied agent to engage with the 3D environment. To perform instruction tuning with pre-trained LLM on such generated data, we first encode the 3D scene as abstracted object-centric representations and then introduce action tokens denoting that the embodied agent takes certain actions within the environment, as well as state tokens that represent the multisensory state observations of the agent at each time step. In the inference time, MultiPLY could generate action tokens, instructing the agent to take the action in the environment and obtain the next multisensory state observation. The observation is then appended back to the LLM via state tokens to generate subsequent text or action tokens. We demonstrate that MultiPLY outperforms baselines by a large margin through a diverse set of embodied tasks involving object retrieval, tool use, multisensory captioning, and task decomposition.
Abstract（参考訳）: 人間は、積極的に3dの世界を探索し相互作用しながら、多感覚の手がかりのメラネージを乗じる能力を持っている。しかし、現在のマルチモーダルな大規模言語モデルは、入力として知覚データを受動的に吸収し、3D環境でオブジェクトと活発に相互作用し、動的に多感覚情報を収集する能力に欠ける。そこで本研究では,視覚・音声・触覚・熱情報を含む多感覚対話型データを大規模言語モデルに組み込んだ多感覚埋め込み型大言語モデルであるMultiPLYを提案する。この目的のために,LLMを用いたエンボディエージェントを配置し,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを初めて収集した。このような生成データ上で事前学習されたllmを用いた命令チューニングを行うために,まず3dシーンを抽象オブジェクト中心表現としてエンコードし,次に,具体化エージェントが環境内で特定のアクションを取ることを示すアクショントークンと,各時間ステップにおけるエージェントの多感覚状態観察を表す状態トークンを導入する。推論時間において、multiplyはアクショントークンを生成し、エージェントに環境でアクションを取り、次の多感覚状態観察を得るように指示する。その後、観察はステートトークンを介してLCMに付加され、その後のテキストやアクショントークンを生成する。我々は,MultiPLYが,オブジェクト検索,ツール使用,マルチ感覚キャプション,タスク分解など,多種多様な具体的タスクを通じて,ベースラインを大幅に上回ることを示す。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving [45.82124136705798]
DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
論文参考訳（メタデータ） (2025-05-13T16:36:51Z)
X-Capture: An Open-Source Portable Device for Multi-Sensory Learning [11.632896115888261]
我々は,X-Captureを紹介した。X-Captureは,実世界のマルチセンサーデータ収集のための,オープンソースでポータブルで費用対効果の高いデバイスである。 1000ドル以下のビルドコストで、X-Captureはマルチセンサーデータセットの作成を民主化する。 X-Captureは、AIにおける人間のような感覚表現の進化の基礎を成している。
論文参考訳（メタデータ） (2025-04-03T06:44:25Z)
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文参考訳（メタデータ） (2024-11-26T01:54:52Z)
Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文参考訳（メタデータ） (2024-10-06T23:25:21Z)
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文参考訳（メタデータ） (2024-06-14T10:23:53Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs [15.402143137362112]
未来の対話インタフェースは、ユーザのコンテキストに基づいて、デジタルアクションへの迅速なアクセスを提供する。我々は、様々なタイプのマルチモーダル感覚入力に対応して行うことができるデジタル追従動作の全体的設計空間を作成した。 OmniActionsは大規模言語モデル(LLM)をベースとしたパイプラインで,マルチモーダルな知覚入力を処理し,対象情報に対する追従動作を予測する。
論文参考訳（メタデータ） (2024-05-06T23:11:00Z)
Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文参考訳（メタデータ） (2023-07-26T08:40:46Z)
ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。 TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文参考訳（メタデータ） (2020-07-09T17:33:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。