論文の概要: 3D-LLM: Injecting the 3D World into Large Language Models
- arxiv url: http://arxiv.org/abs/2307.12981v1
- Date: Mon, 24 Jul 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:13:42.115667
- Title: 3D-LLM: Injecting the 3D World into Large Language Models
- Title(参考訳): 3d-llm: 大きな言語モデルに3d世界を注入する
- Authors: Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du,
Zhenfang Chen, Chuang Gan
- Abstract要約: 大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
- 参考スコア(独自算出の注目度): 60.43823088804661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) and Vision-Language Models (VLMs) have been
proven to excel at multiple tasks, such as commonsense reasoning. Powerful as
these models can be, they are not grounded in the 3D physical world, which
involves richer concepts such as spatial relationships, affordances, physics,
layout, and so on. In this work, we propose to inject the 3D world into large
language models and introduce a whole new family of 3D-LLMs. Specifically,
3D-LLMs can take 3D point clouds and their features as input and perform a
diverse set of 3D-related tasks, including captioning, dense captioning, 3D
question answering, task decomposition, 3D grounding, 3D-assisted dialog,
navigation, and so on. Using three types of prompting mechanisms that we
design, we are able to collect over 300k 3D-language data covering these tasks.
To efficiently train 3D-LLMs, we first utilize a 3D feature extractor that
obtains 3D features from rendered multi- view images. Then, we use 2D VLMs as
our backbones to train our 3D-LLMs. By introducing a 3D localization mechanism,
3D-LLMs can better capture 3D spatial information. Experiments on ScanQA show
that our model outperforms state-of-the-art baselines by a large margin (e.g.,
the BLEU-1 score surpasses state-of-the-art score by 9%). Furthermore,
experiments on our held-in datasets for 3D captioning, task composition, and
3D-assisted dialogue show that our model outperforms 2D VLMs. Qualitative
examples also show that our model could perform more tasks beyond the scope of
existing LLMs and VLMs. Project Page: : https://vis-www.cs.umass.edu/3dllm/.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
これらのモデルが強力であるように、それらは空間的関係、余裕、物理学、レイアウトなど、よりリッチな概念を含む3D物理の世界に根ざしていない。
本研究では,大規模言語モデルに3Dワールドを注入し,全く新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、キャプション、密接なキャプション、3D質問応答、タスク分解、3Dグラウンド、3Dアシストダイアログ、ナビゲーションなど、様々な3D関連のタスクを実行することができる。
私たちが設計した3種類のプロンプト機構を用いて、これらのタスクをカバーする300万以上の3D言語データを収集することができる。
3D-LLMを効率的に訓練するために,まず,レンダリングした多視点画像から3D特徴量を抽出する3D特徴抽出器を利用する。
次に、バックボーンとして2D VLMを使用して、3D-LLMをトレーニングします。
3Dローカライゼーション機構を導入することで、3D-LLMは3D空間情報をよりよくキャプチャできる。
ScanQAの実験では、我々のモデルは最先端のベースラインを大きなマージンで上回ります(例えば、BLEU-1スコアは最先端のスコアを9%上回ります)。
さらに, 3次元キャプション, タスク合成, 3次元対話のためのデータセット実験により, モデルが2次元VLMより優れていることが示された。
定性的な例は、我々のモデルが既存のLLMとVLMの範囲を超えてより多くのタスクを実行できることを示している。
プロジェクトページ: https://vis-www.cs.umass.edu/3dllm/
関連論文リスト
- 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination [22.029496025779405]
3D-GRANDは、40,087の世帯シーンと6.2百万の密集したシーン言語命令を組み合わせた、先駆的な大規模データセットである。
この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。
コントリビューションの一環として、3D-LLMの幻覚を体系的に評価するための総合的なベンチマーク3D-POPEを提案する。
論文 参考訳(メタデータ) (2024-06-07T17:59:59Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。