論文の概要: MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World
- arxiv url: http://arxiv.org/abs/2401.08577v1
- Date: Tue, 16 Jan 2024 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:41:15.249107
- Title: MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World
- Title(参考訳): MultiPLY:3次元世界における多感覚オブジェクト中心型大規模言語モデル
- Authors: Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang
Gan
- Abstract要約: マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
- 参考スコア(独自算出の注目度): 55.878173953175356
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Human beings possess the capability to multiply a melange of multisensory
cues while actively exploring and interacting with the 3D world. Current
multi-modal large language models, however, passively absorb sensory data as
inputs, lacking the capacity to actively interact with the objects in the 3D
environment and dynamically collect their multisensory information. To usher in
the study of this area, we propose MultiPLY, a multisensory embodied large
language model that could incorporate multisensory interactive data, including
visual, audio, tactile, and thermal information into large language models,
thereby establishing the correlation among words, actions, and percepts. To
this end, we first collect Multisensory Universe, a large-scale multisensory
interaction dataset comprising 500k data by deploying an LLM-powered embodied
agent to engage with the 3D environment. To perform instruction tuning with
pre-trained LLM on such generated data, we first encode the 3D scene as
abstracted object-centric representations and then introduce action tokens
denoting that the embodied agent takes certain actions within the environment,
as well as state tokens that represent the multisensory state observations of
the agent at each time step. In the inference time, MultiPLY could generate
action tokens, instructing the agent to take the action in the environment and
obtain the next multisensory state observation. The observation is then
appended back to the LLM via state tokens to generate subsequent text or action
tokens. We demonstrate that MultiPLY outperforms baselines by a large margin
through a diverse set of embodied tasks involving object retrieval, tool use,
multisensory captioning, and task decomposition.
- Abstract(参考訳): 人間は、積極的に3dの世界を探索し相互作用しながら、多感覚の手がかりのメラネージを乗じる能力を持っている。
しかし、現在のマルチモーダルな大規模言語モデルは、入力として知覚データを受動的に吸収し、3D環境でオブジェクトと活発に相互作用し、動的に多感覚情報を収集する能力に欠ける。
そこで本研究では,視覚・音声・触覚・熱情報を含む多感覚対話型データを大規模言語モデルに組み込んだ多感覚埋め込み型大言語モデルであるMultiPLYを提案する。
この目的のために,LLMを用いたエンボディエージェントを配置し,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを初めて収集した。
このような生成データ上で事前学習されたllmを用いた命令チューニングを行うために,まず3dシーンを抽象オブジェクト中心表現としてエンコードし,次に,具体化エージェントが環境内で特定のアクションを取ることを示すアクショントークンと,各時間ステップにおけるエージェントの多感覚状態観察を表す状態トークンを導入する。
推論時間において、multiplyはアクショントークンを生成し、エージェントに環境でアクションを取り、次の多感覚状態観察を得るように指示する。
その後、観察はステートトークンを介してLCMに付加され、その後のテキストやアクショントークンを生成する。
我々は,MultiPLYが,オブジェクト検索,ツール使用,マルチ感覚キャプション,タスク分解など,多種多様な具体的タスクを通じて,ベースラインを大幅に上回ることを示す。
関連論文リスト
- g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs [15.402143137362112]
未来の対話インタフェースは、ユーザのコンテキストに基づいて、デジタルアクションへの迅速なアクセスを提供する。
我々は、様々なタイプのマルチモーダル感覚入力に対応して行うことができるデジタル追従動作の全体的設計空間を作成した。
OmniActionsは大規模言語モデル(LLM)をベースとしたパイプラインで,マルチモーダルな知覚入力を処理し,対象情報に対する追従動作を予測する。
論文 参考訳(メタデータ) (2024-05-06T23:11:00Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。