論文の概要: Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2405.12821v2
- Date: Fri, 19 Jul 2024 00:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 23:17:48.748276
- Title: Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension
- Title(参考訳): Talk2Radar: 3次元参照表現理解のための4D mmWave Radarによる自然言語のブリッジ
- Authors: Runwei Guan, Ruixiao Zhang, Ningwei Ouyang, Jianan Liu, Ka Lok Man, Xiaohao Cai, Ming Xu, Jeremy Smith, Eng Gee Lim, Yutao Yue, Hui Xiong,
- Abstract要約: 4Dミリ波レーダは従来のレーダよりも密度の高い点雲を提供し、オブジェクトの意味的および物理的特性の両方を知覚する。
3次元視覚接地のためのレーダシーンにおける自然言語による文脈理解の開発を促進するため,最初のデータセットTalk2Radarを構築した。
本研究では,ポイントクラウド上での3次元参照表現のための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのステートオフ・ザ・アート(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 21.598751853520834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied perception is essential for intelligent vehicles and robots in interactive environmental understanding. However, these advancements primarily focus on vision, with limited attention given to using 3D modeling sensors, restricting a comprehensive understanding of objects in response to prompts containing qualitative and quantitative queries. Recently, as a promising automotive sensor with affordable cost, 4D millimeter-wave radars provide denser point clouds than conventional radars and perceive both semantic and physical characteristics of objects, thereby enhancing the reliability of perception systems. To foster the development of natural language-driven context understanding in radar scenes for 3D visual grounding, we construct the first dataset, Talk2Radar, which bridges these two modalities for 3D Referring Expression Comprehension (REC). Talk2Radar contains 8,682 referring prompt samples with 20,558 referred objects. Moreover, we propose a novel model, T-RadarNet, for 3D REC on point clouds, achieving State-Of-The-Art (SOTA) performance on the Talk2Radar dataset compared to counterparts. Deformable-FPN and Gated Graph Fusion are meticulously designed for efficient point cloud feature modeling and cross-modal fusion between radar and text features, respectively. Comprehensive experiments provide deep insights into radar-based 3D REC. We release our project at https://github.com/GuanRunwei/Talk2Radar.
- Abstract(参考訳): 対話型環境理解における知的車両やロボットにとって、身体的知覚は不可欠である。
しかし、これらの進歩は主に視覚に焦点を当てており、3Dモデリングセンサーの使用に限られた注意を払っており、質的および定量的なクエリを含むプロンプトに対するオブジェクトの包括的理解を制限する。
近年、安価な自動車用センサとして、4Dミリ波レーダは従来のレーダよりも高密度の点雲を提供し、物体の意味的特性と物理的特性の両方を知覚し、認識システムの信頼性を高めている。
3次元視覚的接地のためのレーダシーンにおける自然言語による文脈理解の発達を促進するために,これらの2つのモードを3次元参照表現理解(REC)にブリッジする最初のデータセットTalk2Radarを構築した。
Talk2Radarは8,682個のプロンプトサンプルと20,558個の参照オブジェクトを含んでいる。
さらに,ポイントクラウド上での3次元RECのための新しいモデルであるT-RadarNetを提案し,Talk2Radarデータセット上でのSOTA(State-Of-The-Art)性能を,それと比較した。
Deformable-FPN と Gated Graph Fusion はそれぞれ、効率的なポイントクラウド特徴モデリングとレーダとテキスト特徴間のクロスモーダル融合のために慎重に設計されている。
総合的な実験は、レーダーベースの3D RECに関する深い洞察を提供する。
私たちはhttps://github.com/GuanRunwei/Talk2Radar.comでプロジェクトをリリースします。
関連論文リスト
- GET-UP: GEomeTric-aware Depth Estimation with Radar Points UPsampling [7.90238039959534]
既存のアルゴリズムは3Dポイントを画像面に投影してレーダデータを処理し、画素レベルの特徴抽出を行う。
レーダデータから2次元情報と3次元情報を交換・集約するために,注目度の高いグラフニューラルネットワーク(GNN)を利用するGET-UPを提案する。
提案したGET-UPをnuScenesデータセット上でベンチマークし,従来最高のパフォーマンスモデルよりも15.3%,14.7%改善した。
論文 参考訳(メタデータ) (2024-09-02T14:15:09Z) - RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar [15.776076554141687]
3D占有に基づく知覚パイプラインは、かなり進歩した自律運転を持つ。
現在の方法では、LiDARやカメラの入力を3D占有率予測に頼っている。
本稿では,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T21:48:17Z) - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - CenterRadarNet: Joint 3D Object Detection and Tracking Framework using
4D FMCW Radar [28.640714690346353]
CenterRadarNetは、4D(Doppler-range-azimuth-ele)レーダーデータからの高分解能表現学習を容易にするように設計されている。
シングルステージの3Dオブジェクト検出器として、CenterRadarNetは、BEVオブジェクト分布の信頼性マップ、対応する3Dバウンディングボックス属性、および各ピクセルの外観埋め込みを推論する。
さまざまな駆動シナリオにおいて、CenterRadarNetは一貫性があり、堅牢なパフォーマンスを示し、その広範な適用性を強調している。
論文 参考訳(メタデータ) (2023-11-02T17:36:40Z) - MVFAN: Multi-View Feature Assisted Network for 4D Radar Object Detection [15.925365473140479]
4Dレーダーは、悪天候下での弾力性と費用対効果が認められている。
LiDARやカメラとは異なり、レーダーは厳しい気象条件で損傷を受けないままである。
本稿では,自律走行車のためのレーダーによる3次元物体検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:07Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - K-Radar: 4D Radar Object Detection for Autonomous Driving in Various
Weather Conditions [9.705678194028895]
KAIST-Radarは、新しい大規模オブジェクト検出データセットとベンチマークである。
4次元レーダーテンソル(4DRT)データの35Kフレームを含み、ドップラー、レンジ、方位、標高の寸法に沿って電力の測定を行う。
我々は、慎重に校正された高分解能ライダー、サラウンドステレオカメラ、RTK-GPSから補助的な測定を行う。
論文 参考訳(メタデータ) (2022-06-16T13:39:21Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。