論文の概要: Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2405.12821v1
- Date: Tue, 21 May 2024 14:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:20:58.568393
- Title: Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension
- Title(参考訳): Talk2Radar: 3次元参照表現理解のための4D mmWave Radarによる自然言語のブリッジ
- Authors: Runwei Guan, Ruixiao Zhang, Ningwei Ouyang, Jianan Liu, Ka Lok Man, Xiaohao Cai, Ming Xu, Jeremy Smith, Eng Gee Lim, Yutao Yue, Hui Xiong,
- Abstract要約: 近年、安価な自動車用センサーとして、4Dミリ波レーダーは従来のレーダーよりも高密度の点雲を提供する。
最初のデータセットであるTalk2Radarを構築し、これら2つのモードを3D参照式にブリッジする。
ポイントクラウド上での3次元RECのための新しいモデルT-RadarNetを提案し,Talk2Radarデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 21.598751853520834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied perception is essential for intelligent vehicles and robots, enabling more natural interaction and task execution. However, these advancements currently embrace vision level, rarely focusing on using 3D modeling sensors, which limits the full understanding of surrounding objects with multi-granular characteristics. Recently, as a promising automotive sensor with affordable cost, 4D Millimeter-Wave radar provides denser point clouds than conventional radar and perceives both semantic and physical characteristics of objects, thus enhancing the reliability of perception system. To foster the development of natural language-driven context understanding in radar scenes for 3D grounding, we construct the first dataset, Talk2Radar, which bridges these two modalities for 3D Referring Expression Comprehension. Talk2Radar contains 8,682 referring prompt samples with 20,558 referred objects. Moreover, we propose a novel model, T-RadarNet for 3D REC upon point clouds, achieving state-of-the-art performances on Talk2Radar dataset compared with counterparts, where Deformable-FPN and Gated Graph Fusion are meticulously designed for efficient point cloud feature modeling and cross-modal fusion between radar and text features, respectively. Further, comprehensive experiments are conducted to give a deep insight into radar-based 3D REC. We release our project at https://github.com/GuanRunwei/Talk2Radar.
- Abstract(参考訳): 身体的知覚はインテリジェントな車やロボットにとって不可欠であり、より自然なインタラクションとタスク実行を可能にします。
しかし、これらの進歩は、現在視覚レベルを取り入れており、3Dモデリングセンサーの使用にはほとんど焦点を当てていないため、周囲の物体を多粒質の特徴で完全に理解することが制限されている。
近年,4Dミリ波レーダは安価な自動車用センサとして,従来のレーダよりも高密度な点雲を提供し,物体のセマンティック特性と物理的特性の両方を知覚し,認識システムの信頼性を高めている。
3Dグラウンドティングのためのレーダシーンにおける自然言語による文脈理解の発達を促進するために,これらの2つのモードをブリッジする最初のデータセットであるTalk2Radarを構築した。
Talk2Radarは8,682個のプロンプトサンプルと20,558個の参照オブジェクトを含んでいる。
さらに,T-RadarNet for 3D REC on point clouds, achieved the-of-the-art performance on Talk2Radar dataset compared which, which, Deformable-FPN and Gated Graph Fusion are importantly designed for efficient point cloud feature modeling and cross-modalfusion between radar and text features。
さらに、レーダーベースの3D RECについて深い洞察を与えるため、包括的な実験が行われた。
私たちはhttps://github.com/GuanRunwei/Talk2Radar.comでプロジェクトをリリースします。
関連論文リスト
- GET-UP: GEomeTric-aware Depth Estimation with Radar Points UPsampling [7.90238039959534]
既存のアルゴリズムは3Dポイントを画像面に投影してレーダデータを処理し、画素レベルの特徴抽出を行う。
レーダデータから2次元情報と3次元情報を交換・集約するために,注目度の高いグラフニューラルネットワーク(GNN)を利用するGET-UPを提案する。
提案したGET-UPをnuScenesデータセット上でベンチマークし,従来最高のパフォーマンスモデルよりも15.3%,14.7%改善した。
論文 参考訳(メタデータ) (2024-09-02T14:15:09Z) - RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar [15.776076554141687]
3D占有に基づく知覚パイプラインは、かなり進歩した自律運転を持つ。
現在の方法では、LiDARやカメラの入力を3D占有率予測に頼っている。
本稿では,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T21:48:17Z) - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - CenterRadarNet: Joint 3D Object Detection and Tracking Framework using
4D FMCW Radar [28.640714690346353]
CenterRadarNetは、4D(Doppler-range-azimuth-ele)レーダーデータからの高分解能表現学習を容易にするように設計されている。
シングルステージの3Dオブジェクト検出器として、CenterRadarNetは、BEVオブジェクト分布の信頼性マップ、対応する3Dバウンディングボックス属性、および各ピクセルの外観埋め込みを推論する。
さまざまな駆動シナリオにおいて、CenterRadarNetは一貫性があり、堅牢なパフォーマンスを示し、その広範な適用性を強調している。
論文 参考訳(メタデータ) (2023-11-02T17:36:40Z) - MVFAN: Multi-View Feature Assisted Network for 4D Radar Object Detection [15.925365473140479]
4Dレーダーは、悪天候下での弾力性と費用対効果が認められている。
LiDARやカメラとは異なり、レーダーは厳しい気象条件で損傷を受けないままである。
本稿では,自律走行車のためのレーダーによる3次元物体検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:07Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - K-Radar: 4D Radar Object Detection for Autonomous Driving in Various
Weather Conditions [9.705678194028895]
KAIST-Radarは、新しい大規模オブジェクト検出データセットとベンチマークである。
4次元レーダーテンソル(4DRT)データの35Kフレームを含み、ドップラー、レンジ、方位、標高の寸法に沿って電力の測定を行う。
我々は、慎重に校正された高分解能ライダー、サラウンドステレオカメラ、RTK-GPSから補助的な測定を行う。
論文 参考訳(メタデータ) (2022-06-16T13:39:21Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。