論文の概要: 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2501.07819v1
- Date: Tue, 14 Jan 2025 03:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:20.409446
- Title: 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding
- Title(参考訳): 3UR-LLM:3次元シーン理解のためのエンドツーエンド多モーダル大言語モデル
- Authors: Haomiao Xiong, Yunzhi Zhuge, Jiawen Zhu, Lu Zhang, Huchuan Lu,
- Abstract要約: オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
- 参考スコア(独自算出の注目度): 49.15555885075644
- License:
- Abstract: Multi-modal Large Language Models (MLLMs) exhibit impressive capabilities in 2D tasks, yet encounter challenges in discerning the spatial positions, interrelations, and causal logic in scenes when transitioning from 2D to 3D representations. We find that the limitations mainly lie in: i) the high annotation cost restricting the scale-up of volumes of 3D scene data, and ii) the lack of a straightforward and effective way to perceive 3D information which results in prolonged training durations and complicates the streamlined framework. To this end, we develop pipeline based on open-source 2D MLLMs and LLMs to generate high-quality 3D-text pairs and construct 3DS-160K , to enhance the pre-training process. Leveraging this high-quality pre-training data, we introduce the 3UR-LLM model, an end-to-end 3D MLLM designed for precise interpretation of 3D scenes, showcasing exceptional capability in navigating the complexities of the physical world. 3UR-LLM directly receives 3D point cloud as input and project 3D features fused with text instructions into a manageable set of tokens. Considering the computation burden derived from these hybrid tokens, we design a 3D compressor module to cohesively compress the 3D spatial cues and textual narrative. 3UR-LLM achieves promising performance with respect to the previous SOTAs, for instance, 3UR-LLM exceeds its counterparts by 7.1\% CIDEr on ScanQA, while utilizing fewer training resources. The code and model weights for 3UR-LLM and the 3DS-160K benchmark are available at 3UR-LLM.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は2次元タスクにおいて顕著な能力を示すが、2次元から3次元へ遷移するシーンにおける空間的位置、相互関係、因果論理を識別する際の課題に遭遇する。
制限は主に次のとおりである。
一 高アノテーション費用で、3Dシーンデータのボリュームのスケールアップを制限し、
二 訓練期間を延ばし、合理化の枠組みを複雑化する、3D情報を知覚する簡便で効果的な方法がないこと。
そこで我々は,オープンソースの2D MLLM と LLM をベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成し,事前学習プロセスを強化するために3DS-160K を構築した。
この高品質な事前学習データを活用することで、3UR-LLMモデルを導入する。これは3Dシーンの正確な解釈のために設計されたエンドツーエンドの3DMLLMで、物理世界の複雑さをナビゲートする際、例外的な能力を示す。
3UR-LLMは入力として3Dポイントクラウドを直接受信し、テキスト命令で融合したプロジェクト3D機能を管理可能なトークンセットに格納する。
これらのハイブリッドトークンから導出される計算負荷を考慮すると、3次元空間キューとテキストナラティブを結合的に圧縮する3次元圧縮モジュールを設計する。
3UR-LLMは以前のSOTAに対して有望な性能を達成する。例えば、ScanQA上での3UR-LLMのCIDErは7.1\%を超え、トレーニングリソースが少ない。
3UR-LLMと3DS-160Kベンチマークのコードとモデルウェイトは、3UR-LLMで利用可能である。
関連論文リスト
- LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination [22.029496025779405]
3D-GRANDは、40,087の世帯シーンと6.2百万の密集したシーン言語命令を組み合わせた、先駆的な大規模データセットである。
この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。
コントリビューションの一環として、3D-LLMの幻覚を体系的に評価するための総合的なベンチマーク3D-POPEを提案する。
論文 参考訳(メタデータ) (2024-06-07T17:59:59Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR
Understanding [36.66305190056456]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。
本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。
我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
論文 参考訳(メタデータ) (2023-12-21T17:52:12Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。