論文の概要: MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World
- arxiv url: http://arxiv.org/abs/2401.08577v1
- Date: Tue, 16 Jan 2024 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:41:15.249107
- Title: MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World
- Title(参考訳): MultiPLY:3次元世界における多感覚オブジェクト中心型大規模言語モデル
- Authors: Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang
Gan
- Abstract要約: マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
- 参考スコア(独自算出の注目度): 55.878173953175356
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Human beings possess the capability to multiply a melange of multisensory
cues while actively exploring and interacting with the 3D world. Current
multi-modal large language models, however, passively absorb sensory data as
inputs, lacking the capacity to actively interact with the objects in the 3D
environment and dynamically collect their multisensory information. To usher in
the study of this area, we propose MultiPLY, a multisensory embodied large
language model that could incorporate multisensory interactive data, including
visual, audio, tactile, and thermal information into large language models,
thereby establishing the correlation among words, actions, and percepts. To
this end, we first collect Multisensory Universe, a large-scale multisensory
interaction dataset comprising 500k data by deploying an LLM-powered embodied
agent to engage with the 3D environment. To perform instruction tuning with
pre-trained LLM on such generated data, we first encode the 3D scene as
abstracted object-centric representations and then introduce action tokens
denoting that the embodied agent takes certain actions within the environment,
as well as state tokens that represent the multisensory state observations of
the agent at each time step. In the inference time, MultiPLY could generate
action tokens, instructing the agent to take the action in the environment and
obtain the next multisensory state observation. The observation is then
appended back to the LLM via state tokens to generate subsequent text or action
tokens. We demonstrate that MultiPLY outperforms baselines by a large margin
through a diverse set of embodied tasks involving object retrieval, tool use,
multisensory captioning, and task decomposition.
- Abstract(参考訳): 人間は、積極的に3dの世界を探索し相互作用しながら、多感覚の手がかりのメラネージを乗じる能力を持っている。
しかし、現在のマルチモーダルな大規模言語モデルは、入力として知覚データを受動的に吸収し、3D環境でオブジェクトと活発に相互作用し、動的に多感覚情報を収集する能力に欠ける。
そこで本研究では,視覚・音声・触覚・熱情報を含む多感覚対話型データを大規模言語モデルに組み込んだ多感覚埋め込み型大言語モデルであるMultiPLYを提案する。
この目的のために,LLMを用いたエンボディエージェントを配置し,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを初めて収集した。
このような生成データ上で事前学習されたllmを用いた命令チューニングを行うために,まず3dシーンを抽象オブジェクト中心表現としてエンコードし,次に,具体化エージェントが環境内で特定のアクションを取ることを示すアクショントークンと,各時間ステップにおけるエージェントの多感覚状態観察を表す状態トークンを導入する。
推論時間において、multiplyはアクショントークンを生成し、エージェントに環境でアクションを取り、次の多感覚状態観察を得るように指示する。
その後、観察はステートトークンを介してLCMに付加され、その後のテキストやアクショントークンを生成する。
我々は,MultiPLYが,オブジェクト検索,ツール使用,マルチ感覚キャプション,タスク分解など,多種多様な具体的タスクを通じて,ベースラインを大幅に上回ることを示す。
関連論文リスト
- Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - An Embodied Generalist Agent in 3D World [69.4042892362275]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを提案する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。
LEOの卓越した能力は,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など多岐にわたる。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。