論文の概要: LidaRefer: Outdoor 3D Visual Grounding for Autonomous Driving with Transformers
- arxiv url: http://arxiv.org/abs/2411.04351v1
- Date: Thu, 07 Nov 2024 01:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:46.669607
- Title: LidaRefer: Outdoor 3D Visual Grounding for Autonomous Driving with Transformers
- Title(参考訳): LidaRefer:変圧器を用いた自動運転のための屋外3D視覚グラウンド
- Authors: Yeong-Seung Baek, Heung-Seon Oh,
- Abstract要約: LidaReferは、大規模な屋外シーン用に設計されたトランスフォーマーベースの3DVGフレームワークである。
本稿では,デコーダのクエリを監督し,曖昧なオブジェクトをローカライズする,シンプルで効果的なローカライズ手法を提案する。
LidaReferは、自動運転のための3DVGデータセットであるTalk2Car-3Dで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.0589208420411014
- License:
- Abstract: 3D visual grounding (VG) aims to locate relevant objects or regions within 3D scenes based on natural language descriptions. Although recent methods for indoor 3D VG have successfully transformer-based architectures to capture global contextual information and enable fine-grained cross-modal fusion, they are unsuitable for outdoor environments due to differences in the distribution of point clouds between indoor and outdoor settings. Specifically, first, extensive LiDAR point clouds demand unacceptable computational and memory resources within transformers due to the high-dimensional visual features. Second, dominant background points and empty spaces in sparse LiDAR point clouds complicate cross-modal fusion owing to their irrelevant visual information. To address these challenges, we propose LidaRefer, a transformer-based 3D VG framework designed for large-scale outdoor scenes. Moreover, during training, we introduce a simple and effective localization method, which supervises the decoder's queries to localize not only a target object but also ambiguous objects that might be confused as the target due to the exhibition of similar attributes in a scene or the incorrect understanding of a language description. This supervision enhances the model's ability to distinguish ambiguous objects from a target by learning the differences in their spatial relationships and attributes. LidaRefer achieves state-of-the-art performance on Talk2Car-3D, a 3D VG dataset for autonomous driving, with significant improvements under various evaluation settings.
- Abstract(参考訳): 3Dビジュアルグラウンドティング(VG)は、自然言語の記述に基づいて、3Dシーン内の関連オブジェクトや領域を特定することを目的としている。
室内3次元VGの最近の手法は,グローバルなコンテキスト情報をキャプチャし,粒度の細かい相互融合を実現するためのトランスフォーマーベースのアーキテクチャを成功させているが,屋内と屋外の環境における点雲の分布の違いのため,屋外環境には適さない。
特に、大規模なLiDAR点雲は、高次元の視覚的特徴のため、トランスフォーマー内では受け入れがたい計算資源とメモリ資源を必要とする。
第二に、疎いLiDAR点雲における支配的な背景点と空空間は、それらの無関係な視覚情報のために、相互拡散を複雑にする。
これらの課題に対処するために,大規模な屋外シーン用に設計されたトランスフォーマーベースの3次元VGフレームワークであるLidaReferを提案する。
さらに、トレーニング中に、目的物だけでなく、シーン内の類似した属性の展示や言語記述の誤った理解によって、対象物として混同される可能性のある曖昧なオブジェクトをローカライズするためにデコーダのクエリを監督する、シンプルで効果的なローカライズ手法を導入する。
この指導は、空間的関係や属性の違いを学習することで、対象からあいまいな物体を識別するモデルの能力を高める。
LidaReferは、自動運転のための3DVGデータセットであるTalk2Car-3Dの最先端のパフォーマンスを達成し、さまざまな評価設定で大幅に改善されている。
関連論文リスト
- Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Uni3DETR: Unified 3D Detection Transformer [75.35012428550135]
同一の枠組み内での屋内および屋外検出に対処する統合された3次元検出器を提案する。
具体的には,物体の予測に点-ボクセル相互作用を用いた検出変換器を用いる。
そこで我々は,密集した屋内シーンのグローバル情報と,大域の狭い屋外シーンのローカル情報とを十分に活用する問合せポイントの混合を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:20:20Z) - Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。
我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。
提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文 参考訳(メタデータ) (2023-09-05T13:27:19Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - SWFormer: Sparse Window Transformer for 3D Object Detection in Point
Clouds [44.635939022626744]
ポイントクラウドにおける3Dオブジェクト検出は、現代のロボティクスと自律運転システムの中核となるコンポーネントである。
3Dオブジェクト検出の鍵となる課題は、3Dシーン内でのポイント占有のスパースな性質にある。
Sparse Window Transformer (SWFormer) を提案する。
論文 参考訳(メタデータ) (2022-10-13T21:37:53Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。