論文の概要: Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.08336v1
- Date: Tue, 11 Mar 2025 11:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:54.006705
- Title: Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving
- Title(参考訳): Talk2PC: 自動運転のためのLiDARとレーダーポイント雲融合による3D視覚グラウンドの強化
- Authors: Runwei Guan, Jianan Liu, Ningwei Ouyang, Daizong Liu, Xiaolou Sun, Lianqing Zheng, Ming Xu, Yutao Yue, Hui Xiong,
- Abstract要約: 我々は,プロンプト誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。
これら2つのセンサの特徴のバランスをとるため,我々は2段階不均一モード適応核融合と呼ばれるマルチフュージョンパラダイムを設計した。
我々の実験は、TPCNetがTalk2RadarとTalk2Carの両方のデータセット上で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 25.28104119280405
- License:
- Abstract: Embodied outdoor scene understanding forms the foundation for autonomous agents to perceive, analyze, and react to dynamic driving environments. However, existing 3D understanding is predominantly based on 2D Vision-Language Models (VLMs), collecting and processing limited scene-aware contexts. Instead, compared to the 2D planar visual information, point cloud sensors like LiDAR offer rich depth information and fine-grained 3D representations of objects. Meanwhile, the emerging 4D millimeter-wave (mmWave) radar is capable of detecting the motion trend, velocity, and reflection intensity of each object. Therefore, the integration of these two modalities provides more flexible querying conditions for natural language, enabling more accurate 3D visual grounding. To this end, in this paper, we exploratively propose a novel method called TPCNet, the first outdoor 3D visual grounding model upon the paradigm of prompt-guided point cloud sensor combination, including both LiDAR and radar contexts. To adaptively balance the features of these two sensors required by the prompt, we have designed a multi-fusion paradigm called Two-Stage Heterogeneous Modal Adaptive Fusion. Specifically, this paradigm initially employs Bidirectional Agent Cross-Attention (BACA), which feeds dual-sensor features, characterized by global receptive fields, to the text features for querying. Additionally, we have designed a Dynamic Gated Graph Fusion (DGGF) module to locate the regions of interest identified by the queries. To further enhance accuracy, we innovatively devise an C3D-RECHead, based on the nearest object edge. Our experiments have demonstrated that our TPCNet, along with its individual modules, achieves the state-of-the-art performance on both the Talk2Radar and Talk2Car datasets.
- Abstract(参考訳): 身体的な屋外シーン理解は、自律的なエージェントが動的運転環境を知覚し、分析し、反応する基盤を形成する。
しかし、既存の3D理解は主に2次元視覚言語モデル(VLM)に基づいており、限られたシーン認識コンテキストを収集・処理している。
その代わり、2Dの平面的な視覚情報と比較して、LiDARのようなポイントクラウドセンサーは、豊富な深度情報とオブジェクトのきめ細かい3D表現を提供する。
一方、新興4Dミリ波レーダーは、各物体の運動傾向、速度、反射強度を検出することができる。
したがって、これらの2つのモダリティの統合により、自然言語に対するより柔軟なクエリ条件が提供され、より正確な3Dビジュアルグラウンドが可能になる。
そこで本稿では,LiDARとレーダコンテキストの両方を含む突発誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。
本研究では,これらの2つのセンサの特徴を適応的にバランスさせるため,二段不均一モード適応核融合(Two-Stage Heterogeneous Modal Adaptive Fusion)と呼ばれる多層核融合パラダイムを設計した。
具体的には、このパラダイムは、最初は双方向エージェント・クロス・アテンション(BACA)を使用しており、このパラダイムは、グローバルな受容フィールドを特徴とするデュアルセンサー機能を、クエリ用のテキスト機能に供給する。
さらに、クエリによって識別される関心領域を特定するために、動的Gated Graph Fusion (DGGF) モジュールを設計した。
精度をさらに高めるため、最も近い対象エッジに基づいてC3D-RECHeadを革新的に考案する。
我々の実験は、TPCNetが個々のモジュールとともに、Talk2RadarとTalk2Carの両方のデータセットで最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension [21.598751853520834]
4Dミリ波レーダは従来のレーダよりも密度の高い点雲を提供し、オブジェクトの意味的および物理的特性の両方を知覚する。
3次元視覚接地のためのレーダシーンにおける自然言語による文脈理解の開発を促進するため,最初のデータセットTalk2Radarを構築した。
本研究では,ポイントクラウド上での3次元参照表現のための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのステートオフ・ザ・アート(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-21T14:26:36Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - ImLiDAR: Cross-Sensor Dynamic Message Propagation Network for 3D Object
Detection [20.44294678711783]
我々は,カメラ画像とLiDAR点雲のマルチスケール特徴を段階的に融合させることにより,センサ間差を狭める新しい3ODパラダイムであるImLiDARを提案する。
まず,マルチスケール画像とポイント特徴の最良の組み合わせを目的とした,クロスセンサ動的メッセージ伝搬モジュールを提案する。
第二に、効率的なセットベース検出器を設計できるような、直接セット予測問題を提起する。
論文 参考訳(メタデータ) (2022-11-17T13:31:23Z) - PillarGrid: Deep Learning-based Cooperative Perception for 3D Object
Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。
PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。
広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-12T02:28:41Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。