Fugu-MT 論文翻訳(概要): LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

論文の概要: LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

arxiv url: http://arxiv.org/abs/2312.14074v1
Date: Thu, 21 Dec 2023 17:52:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 13:57:41.970670
Title: LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding
Title（参考訳）: LiDAR-LLM:3次元LiDAR理解のための大規模言語モデルの可能性を探る
Authors: Senqiao Yang, Jiaming Liu, Ray Zhang, Mingjie Pan, Zoey Guo, Xiaoqi Li, Zehui Chen, Peng Gao, Yandong Guo and Shanghang Zhang
Abstract要約: LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
参考スコア（独自算出の注目度）: 36.66305190056456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have shown promise in instruction following and 2D image understanding. While these models are powerful, they have not yet been developed to comprehend the more challenging 3D physical scenes, especially when it comes to the sparse outdoor LiDAR data. In this paper, we introduce LiDAR-LLM, which takes raw LiDAR data as input and harnesses the remarkable reasoning capabilities of LLMs to gain a comprehensive understanding of outdoor 3D scenes. The central insight of our LiDAR-LLM is the reformulation of 3D outdoor scene cognition as a language modeling problem, encompassing tasks such as 3D captioning, 3D grounding, 3D question answering, etc. Specifically, due to the scarcity of 3D LiDAR-text pairing data, we introduce a three-stage training strategy and generate relevant datasets, progressively aligning the 3D modality with the language embedding space of LLM. Furthermore, we design a View-Aware Transformer (VAT) to connect the 3D encoder with the LLM, which effectively bridges the modality gap and enhances the LLM's spatial orientation comprehension of visual features. Our experiments show that LiDAR-LLM possesses favorable capabilities to comprehend various instructions regarding 3D scenes and engage in complex spatial reasoning. LiDAR-LLM attains a 40.9 BLEU-1 on the 3D captioning task and achieves a 63.1\% classification accuracy and a 14.3\% BEV mIoU on the 3D grounding task. Web page: https://sites.google.com/view/lidar-llm
Abstract（参考訳）: 近年,Large Language Models (LLMs) とMultimodal Large Language Models (MLLMs) は,命令追従と2次元画像理解において有望であることを示す。これらのモデルは強力だが、特に狭い屋外のLiDARデータに関して、より困難な3D物理シーンを理解するためにはまだ開発されていない。本稿では、LiDARデータを入力として取り出し、LLMの顕著な推論能力を利用して屋外3Dシーンの総合的な理解を得るLiDAR-LLMを提案する。 LiDAR-LLMは,3次元キャプション,3次元グラウンド,3次元質問応答などのタスクを包含する言語モデリング問題として,3次元屋外シーン認識の再構築を主眼としている。具体的には、3次元LiDARテキストペアリングデータの不足により、3段階のトレーニング戦略を導入し、関連するデータセットを生成し、3次元モダリティをLLMの言語埋め込み空間と漸進的に整合させる。さらに、3DエンコーダとLLMを接続するビュー・アウェア・トランスフォーマー(VAT)を設計し、モダリティギャップを効果的にブリッジし、LLMの視覚的特徴の空間的方向理解を強化する。実験の結果,LiDAR-LLMは3次元シーンに関する様々な指示を理解でき,複雑な空間的推論を行うことができることがわかった。 LiDAR-LLMは3Dキャプションタスクで40.9 BLEU-1を獲得し、63.1\%の分類精度と3Dグラウンドタスクで14.3\%のBEV mIoUを達成する。 Webページ: https://sites.google.com/view/lidar-llm

関連論文リスト

MLLMs Need 3D-Aware Representation Supervision for Scene Understanding [14.083262551714133]
3DRSは、事前訓練された3D基礎モデルから監督を導入することでMLLM 3D表現学習を強化するフレームワークである。本手法は3次元モデルから抽出したリッチな3次元知識とMLLMの視覚的特徴を一致させ,シーン理解を効果的に改善する。
論文参考訳（メタデータ） (2025-06-02T17:58:24Z)
Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors [23.66183317100899]
これまで,ビデオとして解釈することで3次元シーンの理解にMLLM(Multimodal Large Language Models)を適用する研究が続けられてきた。ビデオ3次元幾何大言語モデル(VG LLM)を提案する。提案手法では,映像系列から3次元事前情報を抽出する3次元ビジュアルジオメトリエンコーダを用いる。
論文参考訳（メタデータ） (2025-05-30T14:16:41Z)
3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文参考訳（メタデータ） (2025-01-14T03:50:23Z)
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-30T14:28:53Z)
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文参考訳（メタデータ） (2024-11-14T17:08:23Z)
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文参考訳（メタデータ） (2024-10-04T19:22:20Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文参考訳（メタデータ） (2024-05-06T17:57:27Z)
3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文参考訳（メタデータ） (2024-01-06T12:20:18Z)
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文参考訳（メタデータ） (2023-08-17T03:52:15Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。