論文の概要: LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
- arxiv url: http://arxiv.org/abs/2409.18125v1
- Date: Thu, 26 Sep 2024 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:27:33.249160
- Title: LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
- Title(参考訳): LLaVA-3D:3D認識によるLMMの簡易かつ効果的な活用方法
- Authors: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu,
- Abstract要約: 3次元シーン理解のための3次元認識型LMMの開発は、大規模3次元視覚言語データセットと強力な3次元エンコーダの欠如によって妨げられている。
LLaVA-3Dというシンプルなフレームワークを導入し,LLaVAを3次元シーン理解に効果的に適用する。
LLaVA-3Dは、3Dビジョン言語データセットでトレーニングされた場合、既存の3D LMMよりも3.5倍高速に収束する。
- 参考スコア(独自算出の注目度): 22.408933972095763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D scene understanding has been hindered by the lack of large-scale 3D vision-language datasets and powerful 3D encoders. In this paper, we introduce a simple yet effective framework called LLaVA-3D. Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D efficiently adapts LLaVA for 3D scene understanding without compromising 2D understanding capabilities. To achieve this, we employ a simple yet effective representation, 3D Patch, which connects 2D CLIP patch features with their corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs and employing joint 2D and 3D vision-language instruction tuning, we establish a unified architecture for both 2D image understanding and 3D scene understanding. Experimental results show that LLaVA-3D converges 3.5x faster than existing 3D LMMs when trained on 3D vision-language datasets. Moreover, LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks but also maintains comparable 2D image understanding and vision-language conversation capabilities with LLaVA.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、2次元視覚理解タスクの能力を大幅に向上させ、画像やビデオの効果的処理と理解を可能にしている。
しかし、3次元シーン理解のための3次元認識型LMMの開発は、大規模な3次元視覚言語データセットと強力な3次元エンコーダの欠如によって妨げられている。
本稿では,LLaVA-3Dというシンプルなフレームワークを提案する。
LLaVA3DはLLaVAからの強い2次元理解を生かし、LLaVAを2次元理解能力を損なうことなく3次元のシーン理解に効果的に適用する。
これを実現するために,2次元CLIPパッチ機能と対応する3次元空間の位置を接続するシンプルな3Dパッチを用いた。
3次元パッチを2次元LMMに統合し,共同で2次元と3次元の視覚言語による指導チューニングを行うことで,2次元画像理解と3次元シーン理解の両面に統一的なアーキテクチャを構築する。
実験結果から,LLaVA-3Dは既存の3次元LMMよりも3.5倍の速度で収束することが示された。
さらに、LLaVA-3Dは、様々な3Dタスクにまたがる最先端のパフォーマンスを達成するだけでなく、LLaVAと同等の2D画像理解とビジョン言語会話能力を維持している。
関連論文リスト
- SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。
また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文 参考訳(メタデータ) (2024-10-04T19:22:20Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。