論文の概要: Query3D: LLM-Powered Open-Vocabulary Scene Segmentation with Language Embedded 3D Gaussian
- arxiv url: http://arxiv.org/abs/2408.03516v2
- Date: Mon, 16 Dec 2024 20:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:42.645890
- Title: Query3D: LLM-Powered Open-Vocabulary Scene Segmentation with Language Embedded 3D Gaussian
- Title(参考訳): Query3D: 言語組み込み3DガウスによるLLMベースのオープン語彙シーンセグメンテーション
- Authors: Amirhosein Chahe, Lifeng Zhou,
- Abstract要約: 本稿では,自律運転におけるオープンな3次元シーンクエリのための新しい手法を提案する。
そこで我々は,Large Language Models (LLMs) を用いて,文脈的に正のフレーズを生成するとともに,肯定的な単語によるセグメンテーションとシーン解釈を支援することを提案する。
- 参考スコア(独自算出の注目度): 9.316712964093506
- License:
- Abstract: This paper introduces a novel method for open-vocabulary 3D scene querying in autonomous driving by combining Language Embedded 3D Gaussians with Large Language Models (LLMs). We propose utilizing LLMs to generate both contextually canonical phrases and helping positive words for enhanced segmentation and scene interpretation. Our method leverages GPT-3.5 Turbo as an expert model to create a high-quality text dataset, which we then use to fine-tune smaller, more efficient LLMs for on-device deployment. Our comprehensive evaluation on the WayveScenes101 dataset demonstrates that LLM-guided segmentation significantly outperforms traditional approaches based on predefined canonical phrases. Notably, our fine-tuned smaller models achieve performance comparable to larger expert models while maintaining faster inference times. Through ablation studies, we discover that the effectiveness of helping positive words correlates with model scale, with larger models better equipped to leverage additional semantic information. This work represents a significant advancement towards more efficient, context-aware autonomous driving systems, effectively bridging 3D scene representation with high-level semantic querying while maintaining practical deployment considerations.
- Abstract(参考訳): 本稿では,Language Embedded 3D Gaussians とLarge Language Models (LLMs) を組み合わせることで,自律走行におけるオープンな3Dシーンクエリ手法を提案する。
そこで本稿では,LLMを用いて文脈標準句の生成と,セグメンテーションとシーン解釈の強化を支援することを提案する。
提案手法では,GPT-3.5 Turboをエキスパートモデルとして活用し,高品質なテキストデータセットを作成し,デバイス上での展開において,より小型で効率的なLCMを微調整する。
WayveScenes101データセットの包括的評価は、LLM誘導セグメンテーションが、事前定義された標準句に基づいて従来のアプローチよりも大幅に優れていることを示す。
特に、我々の微調整された小型モデルは、より高速な推論時間を維持しながら、より大きな専門家モデルに匹敵する性能を達成する。
アブレーション研究により,肯定的な単語がモデルスケールと相関していることが判明した。
この作業は、より効率的でコンテキスト対応の自律運転システムへの大きな進歩を示し、実用的なデプロイメントの考慮を維持しながら、高レベルのセマンティッククエリーで3Dシーン表現を効果的にブリッジする。
関連論文リスト
- 3D Vision-Language Gaussian Splatting [29.047044145499036]
マルチモーダルな3Dシーン理解は、ロボット工学、自律運転、バーチャル/拡張現実において重要な応用である。
本稿では,視覚的・意味的な相違点を適切に扱えるソリューションを提案する。
また、既存のビュー間のセマンティック一貫性を改善するために、カメラビューブレンディング技術を採用している。
論文 参考訳(メタデータ) (2024-10-10T03:28:29Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Open 3D World in Autonomous Driving [6.876824330759794]
本稿では,LIDARセンサから取得した3Dポイントクラウドデータをテキスト情報と統合する手法を提案する。
本稿では,鳥眼ビュー (BEV) 領域の特徴とテキスト特徴を融合するための効率的な枠組みを提案する。
提案手法の有効性は,新たに導入されたNuScenes-Tデータセット上での広範囲な実験を通じて明確に評価されている。
論文 参考訳(メタデータ) (2024-08-20T14:10:44Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。