論文の概要: RCTrans: Radar-Camera Transformer via Radar Densifier and Sequential Decoder for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2412.12799v1
- Date: Tue, 17 Dec 2024 11:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:22.272526
- Title: RCTrans: Radar-Camera Transformer via Radar Densifier and Sequential Decoder for 3D Object Detection
- Title(参考訳): RCTrans:3次元物体検出のためのレーダデンシファイアとシークエンシャルデコーダを用いたレーダカメラ変換器
- Authors: Yiheng Li, Yang Yang, Zhen Lei,
- Abstract要約: レーダーカメラによる3D物体検出では、レーダーポイント雲は希少でノイズが多い。
我々はRadar-Pruning Transformer (RCTrans) という新しいクエリベースの検出手法を提案する。
提案手法は,最新のレーダーカメラによる3D検出結果を実現する。
- 参考スコア(独自算出の注目度): 16.37397687985041
- License:
- Abstract: In radar-camera 3D object detection, the radar point clouds are sparse and noisy, which causes difficulties in fusing camera and radar modalities. To solve this, we introduce a novel query-based detection method named Radar-Camera Transformer (RCTrans). Specifically, we first design a Radar Dense Encoder to enrich the sparse valid radar tokens, and then concatenate them with the image tokens. By doing this, we can fully explore the 3D information of each interest region and reduce the interference of empty tokens during the fusing stage. We then design a Pruning Sequential Decoder to predict 3D boxes based on the obtained tokens and random initialized queries. To alleviate the effect of elevation ambiguity in radar point clouds, we gradually locate the position of the object via a sequential fusion structure. It helps to get more precise and flexible correspondences between tokens and queries. A pruning training strategy is adopted in the decoder, which can save much time during inference and inhibit queries from losing their distinctiveness. Extensive experiments on the large-scale nuScenes dataset prove the superiority of our method, and we also achieve new state-of-the-art radar-camera 3D detection results. Our implementation is available at https://github.com/liyih/RCTrans.
- Abstract(参考訳): レーダーカメラによる3Dオブジェクト検出では、レーダーポイントの雲は希薄でノイズが多く、カメラとレーダーのモダリティの融合が困難である。
そこで本研究では,Radar-Camera Transformer (RCTrans) という新しいクエリベースの検出手法を提案する。
具体的には、まずレーダセンスエンコーダを設計し、スパースな有効なレーダトークンを濃縮し、画像トークンと結合する。
これにより、各関心領域の3次元情報を完全に探索し、融合段階における空のトークンの干渉を低減することができる。
次に、得られたトークンとランダム初期化クエリに基づいて3Dボックスを予測するために、Pruning Sequential Decoderを設計する。
レーダポイント雲における上昇あいまいさの影響を軽減するため、逐次核融合構造を用いて物体の位置を徐々に特定する。
トークンとクエリ間のより正確で柔軟な対応を得るのに役立つ。
デコーダにはプルーニングトレーニング戦略が採用されており、推論中に多くの時間を節約し、クエリの特異性を損なうのを防ぐことができる。
大規模nuScenesデータセットの大規模な実験により,本手法の優位性が証明され,最新のレーダーカメラによる3D検出結果も得られた。
私たちの実装はhttps://github.com/liyih/RCTransで公開されています。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection [33.07575082922186]
3次元物体検出は、自律運転における重要なタスクの1つである。
カメラのみに頼って高度に正確で頑丈な3Dオブジェクト検出を実現するのは難しい。
鳥眼ビュー(BEV)におけるレーダーカメラ融合3次元物体検出法
RadarBEVNetはデュアルストリームのレーダーバックボーンとRadar Cross-Section (RC)対応のBEVエンコーダで構成されている。
論文 参考訳(メタデータ) (2024-03-25T06:02:05Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Semantic Segmentation of Radar Detections using Convolutions on Point
Clouds [59.45414406974091]
本稿では,レーダ検出を点雲に展開する深層学習手法を提案する。
このアルゴリズムは、距離依存クラスタリングと入力点雲の事前処理により、レーダ固有の特性に適応する。
我々のネットワークは、レーダポイント雲のセマンティックセグメンテーションのタスクにおいて、PointNet++に基づく最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-05-22T07:09:35Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object
Detection [13.986963122264633]
TransCARはトランスフォーマーベースの3Dオブジェクト検出のためのカメラとレーダーの融合ソリューションである。
我々のモデルは、設定されたハンガリー損失を用いてクエリ毎のバウンディングボックスを推定する。
論文 参考訳(メタデータ) (2023-04-30T05:35:03Z) - CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for
Robust 3D Object Detection [12.557361522985898]
本稿では,カメラとレーダーの読み取りを3次元空間に融合させるカメラレーダマッチングネットワークCramNetを提案する。
本手法は, カメラやレーダセンサが車両内で突然故障した場合においても, 頑健な3次元物体検出を実現するセンサモダリティ・ドロップアウトによるトレーニングを支援する。
論文 参考訳(メタデータ) (2022-10-17T17:18:47Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z) - RODNet: Radar Object Detection Using Cross-Modal Supervision [34.33920572597379]
レーダーは通常、厳しい運転シナリオではカメラよりも頑丈である。
カメラが撮影したRGB画像とは異なり、レーダー信号からのセマンティック情報は明らかに抽出が困難である。
レーダ周波数データからオブジェクトを純粋に検出するディープレーダオブジェクト検出ネットワーク(RODNet)を提案する。
論文 参考訳(メタデータ) (2020-03-03T22:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。