論文の概要: LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR
Understanding
- arxiv url: http://arxiv.org/abs/2312.14074v1
- Date: Thu, 21 Dec 2023 17:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 13:57:41.970670
- Title: LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR
Understanding
- Title(参考訳): LiDAR-LLM:3次元LiDAR理解のための大規模言語モデルの可能性を探る
- Authors: Senqiao Yang, Jiaming Liu, Ray Zhang, Mingjie Pan, Zoey Guo, Xiaoqi
Li, Zehui Chen, Peng Gao, Yandong Guo and Shanghang Zhang
- Abstract要約: LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。
本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。
我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
- 参考スコア(独自算出の注目度): 36.66305190056456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) and Multimodal Large Language Models
(MLLMs) have shown promise in instruction following and 2D image understanding.
While these models are powerful, they have not yet been developed to comprehend
the more challenging 3D physical scenes, especially when it comes to the sparse
outdoor LiDAR data. In this paper, we introduce LiDAR-LLM, which takes raw
LiDAR data as input and harnesses the remarkable reasoning capabilities of LLMs
to gain a comprehensive understanding of outdoor 3D scenes. The central insight
of our LiDAR-LLM is the reformulation of 3D outdoor scene cognition as a
language modeling problem, encompassing tasks such as 3D captioning, 3D
grounding, 3D question answering, etc. Specifically, due to the scarcity of 3D
LiDAR-text pairing data, we introduce a three-stage training strategy and
generate relevant datasets, progressively aligning the 3D modality with the
language embedding space of LLM. Furthermore, we design a View-Aware
Transformer (VAT) to connect the 3D encoder with the LLM, which effectively
bridges the modality gap and enhances the LLM's spatial orientation
comprehension of visual features. Our experiments show that LiDAR-LLM possesses
favorable capabilities to comprehend various instructions regarding 3D scenes
and engage in complex spatial reasoning. LiDAR-LLM attains a 40.9 BLEU-1 on the
3D captioning task and achieves a 63.1\% classification accuracy and a 14.3\%
BEV mIoU on the 3D grounding task. Web page:
https://sites.google.com/view/lidar-llm
- Abstract(参考訳): 近年,Large Language Models (LLMs) とMultimodal Large Language Models (MLLMs) は,命令追従と2次元画像理解において有望であることを示す。
これらのモデルは強力だが、特に狭い屋外のLiDARデータに関して、より困難な3D物理シーンを理解するためにはまだ開発されていない。
本稿では、LiDARデータを入力として取り出し、LLMの顕著な推論能力を利用して屋外3Dシーンの総合的な理解を得るLiDAR-LLMを提案する。
LiDAR-LLMは,3次元キャプション,3次元グラウンド,3次元質問応答などのタスクを包含する言語モデリング問題として,3次元屋外シーン認識の再構築を主眼としている。
具体的には、3次元LiDARテキストペアリングデータの不足により、3段階のトレーニング戦略を導入し、関連するデータセットを生成し、3次元モダリティをLLMの言語埋め込み空間と漸進的に整合させる。
さらに、3DエンコーダとLLMを接続するビュー・アウェア・トランスフォーマー(VAT)を設計し、モダリティギャップを効果的にブリッジし、LLMの視覚的特徴の空間的方向理解を強化する。
実験の結果,LiDAR-LLMは3次元シーンに関する様々な指示を理解でき,複雑な空間的推論を行うことができることがわかった。
LiDAR-LLMは3Dキャプションタスクで40.9 BLEU-1を獲得し、63.1\%の分類精度と3Dグラウンドタスクで14.3\%のBEV mIoUを達成する。
Webページ: https://sites.google.com/view/lidar-llm
関連論文リスト
- POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。