論文の概要: MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors
- arxiv url: http://arxiv.org/abs/2405.01413v1
- Date: Thu, 2 May 2024 16:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 15:55:39.768597
- Title: MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors
- Title(参考訳): MiniGPT-3D: 2次元先行モデルを用いた大規模言語モデルによる3次元点雲の効率的な配向
- Authors: Yuan Tang, Xu Han, Xianzhi Li, Qiao Yu, Yixue Hao, Long Hu, Min Chen,
- Abstract要約: MiniGPT-3Dは効率よく強力な3D-LLMで、1GTX 3090でわずか27時間トレーニングしながら複数のSOTA結果を達成する。
提案手法では,新たな4段階学習手法を導入するとともに,クエリエキスパートモジュールの混在を考慮し,モダリティアライメントの手法を提案する。
実験の結果,MiniGPT-3Dは3次元オブジェクト分類とキャプションタスクにおいてSOTAを実現し,トレーニングコストを大幅に削減した。
- 参考スコア(独自算出の注目度): 22.599665818160602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large 2D vision-language models (2D-LLMs) have gained significant attention by bridging Large Language Models (LLMs) with images using a simple projector. Inspired by their success, large 3D point cloud-language models (3D-LLMs) also integrate point clouds into LLMs. However, directly aligning point clouds with LLM requires expensive training costs, typically in hundreds of GPU-hours on A100, which hinders the development of 3D-LLMs. In this paper, we introduce MiniGPT-3D, an efficient and powerful 3D-LLM that achieves multiple SOTA results while training for only 27 hours on one RTX 3090. Specifically, we propose to align 3D point clouds with LLMs using 2D priors from 2D-LLMs, which can leverage the similarity between 2D and 3D visual information. We introduce a novel four-stage training strategy for modality alignment in a cascaded way, and a mixture of query experts module to adaptively aggregate features with high efficiency. Moreover, we utilize parameter-efficient fine-tuning methods LoRA and Norm fine-tuning, resulting in only 47.8M learnable parameters, which is up to 260x fewer than existing methods. Extensive experiments show that MiniGPT-3D achieves SOTA on 3D object classification and captioning tasks, with significantly cheaper training costs. Notably, MiniGPT-3D gains an 8.12 increase on GPT-4 evaluation score for the challenging object captioning task compared to ShapeLLM-13B, while the latter costs 160 total GPU-hours on 8 A800. We are the first to explore the efficient 3D-LLM, offering new insights to the community. Code and weights are available at https://github.com/TangYuan96/MiniGPT-3D.
- Abstract(参考訳): 大規模2次元視覚言語モデル (2D-LLM) は、単純なプロジェクタを用いて画像で大言語モデル (LLM) をブリッジすることで大きな注目を集めている。
彼らの成功に触発されて、大きな3Dポイントのクラウド言語モデル(3D-LLM)も、ポイントクラウドをLLMに統合した。
しかしながら、3D-LLMの開発を妨げているA100上の数百のGPU時間において、ポイントクラウドとLLMを直接整列させるには、高価なトレーニングコストが必要となる。
本稿では,1つのRTX 3090上で27時間しかトレーニングを行ないながら,複数のSOTA結果を実現する,効率的で強力な3D-LLMであるMiniGPT-3Dを紹介する。
具体的には,2次元と3次元の視覚情報との類似性を生かした2D-LLMの2次元先行情報を用いて,3次元点群をLLMと整合させることを提案する。
提案手法では,適応的に特徴を高効率で集約するクエリ・エキスパート・モジュールを混在させて,モダリティアライメントのための新しい4段階のトレーニング戦略を導入する。
さらに,パラメータ効率のよい微調整手法であるLoRAとNormの微細調整を応用し,学習可能なパラメータは47.8Mに過ぎず,既存の手法よりも最大260倍少ない。
広汎な実験により,MiniGPT-3Dは3次元オブジェクト分類およびキャプションタスクにおいてSOTAを達成し,トレーニングコストが大幅に低減された。
特に、MiniGPT-3DはShapeLLM-13Bと比較して、GPT-4の評価スコアが8.12アップし、後者は8 A800で合計160GPU時間である。
私たちは3D-LLMを効果的に探求し、コミュニティに新しい洞察を提供しています。
コードとウェイトはhttps://github.com/TangYuan96/MiniGPT-3Dで入手できる。
関連論文リスト
- Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR
Understanding [36.66305190056456]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。
本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。
我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
論文 参考訳(メタデータ) (2023-12-21T17:52:12Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。