論文の概要: NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.22436v1
- Date: Fri, 28 Mar 2025 13:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:19.997687
- Title: NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving
- Title(参考訳): NuGrounding: 自動運転のための多視点3Dビジュアルグラウンドフレームワーク
- Authors: Fuhao Li, Huan Jin, Bin Gao, Liaoyuan Fan, Lihui Jiang, Long Zeng,
- Abstract要約: 我々はNuGroundingを紹介した。NuGroundingは、自動運転におけるマルチビュー3次元視覚グラウンドのための最初の大規模ベンチマークである。
本稿では,マルチモーダルLLMの命令理解能力と専門的検出モデルの正確な位置推定能力とをシームレスに組み合わせた新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 7.007334645975593
- License:
- Abstract: Multi-view 3D visual grounding is critical for autonomous driving vehicles to interpret natural languages and localize target objects in complex environments. However, existing datasets and methods suffer from coarse-grained language instructions, and inadequate integration of 3D geometric reasoning with linguistic comprehension. To this end, we introduce NuGrounding, the first large-scale benchmark for multi-view 3D visual grounding in autonomous driving. We present a Hierarchy of Grounding (HoG) method to construct NuGrounding to generate hierarchical multi-level instructions, ensuring comprehensive coverage of human instruction patterns. To tackle this challenging dataset, we propose a novel paradigm that seamlessly combines instruction comprehension abilities of multi-modal LLMs (MLLMs) with precise localization abilities of specialist detection models. Our approach introduces two decoupled task tokens and a context query to aggregate 3D geometric information and semantic instructions, followed by a fusion decoder to refine spatial-semantic feature fusion for precise localization. Extensive experiments demonstrate that our method significantly outperforms the baselines adapted from representative 3D scene understanding methods by a significant margin and achieves 0.59 in precision and 0.64 in recall, with improvements of 50.8% and 54.7%.
- Abstract(参考訳): 多視点3D視覚グラウンドティングは、自動運転車が自然言語を解釈し、複雑な環境で対象物をローカライズするために重要である。
しかし、既存のデータセットや手法は、粗い粒度の言語命令に悩まされており、3次元幾何学的推論と言語的理解との整合性が不十分である。
この目的のためにNuGroundingは、自律運転における多視点3D視覚グラウンドのための最初の大規模ベンチマークである。
本論文では,NuGroundingを構築,階層的なマルチレベル命令を生成し,人間の命令パターンの包括的カバレッジを確保するために,HuGroundy of Grounding(HoG)手法を提案する。
この課題に対処するために,マルチモーダルLLM(MLLM)の命令理解能力と,専門家検出モデルの高精度な局所化能力とをシームレスに組み合わせた新しいパラダイムを提案する。
提案手法では,2つの分離されたタスクトークンと,3次元の幾何学的情報と意味的指示を集約するコンテキストクエリを導入し,次いで,空間意味的特徴融合を精密な局所化のために改良する融合デコーダを提案する。
大規模な実験により,本手法は代表的3次元シーン理解法から適応したベースラインを有意に上回り,精度0.59,リコール率0.64,改善率50.8%,54.7%を達成している。
関連論文リスト
- 3D Spatial Understanding in MLLMs: Disambiguation and Evaluation [13.614206918726314]
本研究では,対象対象物体の局所化・曖昧化能力を高める手法を提案する。
提案手法は,文の類似性を評価する従来の指標に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-09T16:04:32Z) - LidaRefer: Outdoor 3D Visual Grounding for Autonomous Driving with Transformers [1.0589208420411014]
LidaReferは、大規模な屋外シーン用に設計されたトランスフォーマーベースの3DVGフレームワークである。
本稿では,デコーダのクエリを監督し,曖昧なオブジェクトをローカライズする,シンプルで効果的なローカライズ手法を提案する。
LidaReferは、自動運転のための3DVGデータセットであるTalk2Car-3Dで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-07T01:12:01Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding [46.253711788685536]
複数の2次元基礎モデルから派生した3次元視覚言語対を融合する3次元認識型SFusion戦略を導入する。
我々は、堅牢で効果的な3D学習を実現するために、地域対応のポイント識別型コントラスト学習目標を考案する。
我々のモデルは、セマンティックスとインスタンスセグメンテーションにおいて、平均17.2%と9.1%の3Dオープンワールドシーン理解アプローチよりも優れている。
論文 参考訳(メタデータ) (2023-04-03T13:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。