Fugu-MT 論文翻訳(概要): MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors

論文の概要: MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors

arxiv url: http://arxiv.org/abs/2405.01413v1
Date: Thu, 2 May 2024 16:04:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 15:55:39.768597
Title: MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors
Title（参考訳）: MiniGPT-3D: 2次元先行モデルを用いた大規模言語モデルによる3次元点雲の効率的な配向
Authors: Yuan Tang, Xu Han, Xianzhi Li, Qiao Yu, Yixue Hao, Long Hu, Min Chen,
Abstract要約: MiniGPT-3Dは効率よく強力な3D-LLMで、1GTX 3090でわずか27時間トレーニングしながら複数のSOTA結果を達成する。提案手法では,新たな4段階学習手法を導入するとともに,クエリエキスパートモジュールの混在を考慮し,モダリティアライメントの手法を提案する。実験の結果,MiniGPT-3Dは3次元オブジェクト分類とキャプションタスクにおいてSOTAを実現し,トレーニングコストを大幅に削減した。
参考スコア（独自算出の注目度）: 22.599665818160602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large 2D vision-language models (2D-LLMs) have gained significant attention by bridging Large Language Models (LLMs) with images using a simple projector. Inspired by their success, large 3D point cloud-language models (3D-LLMs) also integrate point clouds into LLMs. However, directly aligning point clouds with LLM requires expensive training costs, typically in hundreds of GPU-hours on A100, which hinders the development of 3D-LLMs. In this paper, we introduce MiniGPT-3D, an efficient and powerful 3D-LLM that achieves multiple SOTA results while training for only 27 hours on one RTX 3090. Specifically, we propose to align 3D point clouds with LLMs using 2D priors from 2D-LLMs, which can leverage the similarity between 2D and 3D visual information. We introduce a novel four-stage training strategy for modality alignment in a cascaded way, and a mixture of query experts module to adaptively aggregate features with high efficiency. Moreover, we utilize parameter-efficient fine-tuning methods LoRA and Norm fine-tuning, resulting in only 47.8M learnable parameters, which is up to 260x fewer than existing methods. Extensive experiments show that MiniGPT-3D achieves SOTA on 3D object classification and captioning tasks, with significantly cheaper training costs. Notably, MiniGPT-3D gains an 8.12 increase on GPT-4 evaluation score for the challenging object captioning task compared to ShapeLLM-13B, while the latter costs 160 total GPU-hours on 8 A800. We are the first to explore the efficient 3D-LLM, offering new insights to the community. Code and weights are available at https://github.com/TangYuan96/MiniGPT-3D.
Abstract（参考訳）: 大規模2次元視覚言語モデル (2D-LLM) は、単純なプロジェクタを用いて画像で大言語モデル (LLM) をブリッジすることで大きな注目を集めている。彼らの成功に触発されて、大きな3Dポイントのクラウド言語モデル(3D-LLM)も、ポイントクラウドをLLMに統合した。しかしながら、3D-LLMの開発を妨げているA100上の数百のGPU時間において、ポイントクラウドとLLMを直接整列させるには、高価なトレーニングコストが必要となる。本稿では,1つのRTX 3090上で27時間しかトレーニングを行ないながら,複数のSOTA結果を実現する,効率的で強力な3D-LLMであるMiniGPT-3Dを紹介する。具体的には,2次元と3次元の視覚情報との類似性を生かした2D-LLMの2次元先行情報を用いて,3次元点群をLLMと整合させることを提案する。提案手法では,適応的に特徴を高効率で集約するクエリ・エキスパート・モジュールを混在させて,モダリティアライメントのための新しい4段階のトレーニング戦略を導入する。さらに,パラメータ効率のよい微調整手法であるLoRAとNormの微細調整を応用し,学習可能なパラメータは47.8Mに過ぎず,既存の手法よりも最大260倍少ない。広汎な実験により,MiniGPT-3Dは3次元オブジェクト分類およびキャプションタスクにおいてSOTAを達成し,トレーニングコストが大幅に低減された。特に、MiniGPT-3DはShapeLLM-13Bと比較して、GPT-4の評価スコアが8.12アップし、後者は8 A800で合計160GPU時間である。私たちは3D-LLMを効果的に探求し、コミュニティに新しい洞察を提供しています。コードとウェイトはhttps://github.com/TangYuan96/MiniGPT-3Dで入手できる。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs [64.28181017898369]
LIFT-GSはポイントクラウドから3Dガウス表現を予測し、予測された言語条件の3Dマスクを2Dビューにレンダリングする。 LIFT-GSは、オープン語彙のインスタンスセグメンテーションで25.7%のmAPで最先端の結果を達成する。注目すべきは、事前トレーニングがデータセットの微調整を2倍にし、強力なスケーリング特性を示すことだ。
論文参考訳（メタデータ） (2025-02-27T18:59:11Z)
3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文参考訳（メタデータ） (2025-01-14T03:50:23Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文参考訳（メタデータ） (2024-05-06T17:57:27Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding [36.66305190056456]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
論文参考訳（メタデータ） (2023-12-21T17:52:12Z)
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文参考訳（メタデータ） (2023-09-01T17:59:47Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。 NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文参考訳（メタデータ） (2023-05-14T23:14:09Z)
Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。 2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2021-07-08T17:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。