論文の概要: LidaRefer: Context-aware Outdoor 3D Visual Grounding for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2411.04351v2
- Date: Thu, 31 Jul 2025 08:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.565031
- Title: LidaRefer: Context-aware Outdoor 3D Visual Grounding for Autonomous Driving
- Title(参考訳): LidaRefer: 自動運転のためのコンテキスト対応屋外3D視覚グラウンド
- Authors: Yeong-Seung Baek, Heung-Seon Oh,
- Abstract要約: 3Dビジュアルグラウンドは、自然言語記述でガイドされた3Dシーン内のオブジェクトや領域を見つけることを目的としている。
大規模な屋外LiDARシーンは背景が支配的であり、フォアグラウンド情報も限られている。
LidaReferは、屋外シーンのためのコンテキスト対応の3D VGフレームワークである。
- 参考スコア(独自算出の注目度): 1.0589208420411014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D visual grounding (VG) aims to locate objects or regions within 3D scenes guided by natural language descriptions. While indoor 3D VG has advanced, outdoor 3D VG remains underexplored due to two challenges: (1) large-scale outdoor LiDAR scenes are dominated by background points and contain limited foreground information, making cross-modal alignment and contextual understanding more difficult; and (2) most outdoor datasets lack spatial annotations for referential non-target objects, which hinders explicit learning of referential context. To this end, we propose LidaRefer, a context-aware 3D VG framework for outdoor scenes. LidaRefer incorporates an object-centric feature selection strategy to focus on semantically relevant visual features while reducing computational overhead. Then, its transformer-based encoder-decoder architecture excels at establishing fine-grained cross-modal alignment between refined visual features and word-level text features, and capturing comprehensive global context. Additionally, we present Discriminative-Supportive Collaborative localization (DiSCo), a novel supervision strategy that explicitly models spatial relationships between target, contextual, and ambiguous objects for accurate target identification. To enable this without manual labeling, we introduce a pseudo-labeling approach that retrieves 3D localization labels for referential non-target objects. LidaRefer achieves state-of-the-art performance on Talk2Car-3D dataset under various evaluation settings.
- Abstract(参考訳): 3Dビジュアルグラウンドティング(VG)は、自然言語記述でガイドされた3Dシーン内のオブジェクトや領域を特定することを目的としている。
1)大規模屋外LiDARシーンは背景が支配的であり,前景情報も限定的であり,相互アライメントや文脈理解の困難化,2)参照対象でないオブジェクトに対する空間アノテーションが欠如しているため,屋外3DVGは未探索のままである。
この目的のために,屋外シーンのためのコンテキスト対応3D VGフレームワークであるLidaReferを提案する。
LidaReferにはオブジェクト中心の機能選択戦略が組み込まれており、計算オーバーヘッドを減らしながら意味的に関連する視覚的特徴に焦点を当てている。
変換器をベースとしたエンコーダ・デコーダアーキテクチャは、洗練された視覚特徴と単語レベルのテキスト特徴との微粒なクロスモーダルアライメントを確立し、包括的なグローバルコンテキストをキャプチャする。
さらに,目標,文脈,曖昧な対象間の空間的関係を的確にモデル化し,的確な目標同定を行う新しい監視手法であるDiSCoを提案する。
手動ラベリングを使わずにこれを実現するために、参照対象以外のオブジェクトの3Dローカライゼーションラベルを検索する擬似ラベル方式を導入する。
LidaReferは、さまざまな評価設定の下でTalk2Car-3Dデータセット上で最先端のパフォーマンスを達成する。
関連論文リスト
- ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving [25.28104119280405]
我々は,プロンプト誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。
これら2つのセンサの特徴のバランスをとるため,我々は2段階不均一モード適応核融合と呼ばれるマルチフュージョンパラダイムを設計した。
我々の実験は、TPCNetがTalk2RadarとTalk2Carの両方のデータセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-03-11T11:48:27Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Uni3DETR: Unified 3D Detection Transformer [75.35012428550135]
同一の枠組み内での屋内および屋外検出に対処する統合された3次元検出器を提案する。
具体的には,物体の予測に点-ボクセル相互作用を用いた検出変換器を用いる。
そこで我々は,密集した屋内シーンのグローバル情報と,大域の狭い屋外シーンのローカル情報とを十分に活用する問合せポイントの混合を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:20:20Z) - Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。
我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。
提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文 参考訳(メタデータ) (2023-09-05T13:27:19Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - SWFormer: Sparse Window Transformer for 3D Object Detection in Point
Clouds [44.635939022626744]
ポイントクラウドにおける3Dオブジェクト検出は、現代のロボティクスと自律運転システムの中核となるコンポーネントである。
3Dオブジェクト検出の鍵となる課題は、3Dシーン内でのポイント占有のスパースな性質にある。
Sparse Window Transformer (SWFormer) を提案する。
論文 参考訳(メタデータ) (2022-10-13T21:37:53Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。