論文の概要: Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2602.20632v1
- Date: Tue, 24 Feb 2026 07:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.646918
- Title: Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection
- Title(参考訳): 3次元物体検出のための4次元レーダとカメラとのクロスビュー相関によるインスタンス認識の強化
- Authors: Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao, Xiaohan Zhang, Zhe Wu, Beinan Yu, Fang Wang, Jie Bai, Hui-Liang Shen,
- Abstract要約: SIFormerは4Dレーダーとカメラを用いた3Dオブジェクト検出のためのシーンインスタンス対応トランスフォーマーである。
実験の結果、SIFormerはView-of-Delft、TJ4DRadSet、NuScenesのデータセットで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 19.99225197463389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D millimeter-wave radar has emerged as a promising sensing modality for autonomous driving due to its robustness and affordability. However, its sparse and weak geometric cues make reliable instance activation difficult, limiting the effectiveness of existing radar-camera fusion paradigms. BEV-level fusion offers global scene understanding but suffers from weak instance focus, while perspective-level fusion captures instance details but lacks holistic context. To address these limitations, we propose SIFormer, a scene-instance aware transformer for 3D object detection using 4D radar and camera. SIFormer first suppresses background noise during view transformation through segmentation- and depth-guided localization. It then introduces a cross-view activation mechanism that injects 2D instance cues into BEV space, enabling reliable instance awareness under weak radar geometry. Finally, a transformer-based fusion module aggregates complementary image semantics and radar geometry for robust perception. As a result, with the aim of enhancing instance awareness, SIFormer bridges the gap between the two paradigms, combining their complementary strengths to address inherent sparse nature of radar and improve detection accuracy. Experiments demonstrate that SIFormer achieves state-of-the-art performance on View-of-Delft, TJ4DRadSet and NuScenes datasets. Source code is available at github.com/shawnnnkb/SIFormer.
- Abstract(参考訳): 4Dミリ波レーダーは、その頑丈さと手頃さから、自動運転のための将来性のあるセンシングモダリティとして登場した。
しかし、そのスパースで弱い幾何学的手法は、既存のレーダーカメラ融合パラダイムの有効性を制限し、信頼性の高いインスタンスの活性化を困難にしている。
BEVレベルのフュージョンは、グローバルなシーン理解を提供するが、インスタンスフォーカスの弱さに悩まされる一方、パースペクティブレベルのフュージョンは、インスタンスの詳細をキャプチャするが、全体的なコンテキストに欠ける。
これらの制約に対処するために,SIFormerを提案する。SIFormerは,4Dレーダとカメラを用いた3Dオブジェクト検出のためのシーンインスタンス対応トランスフォーマである。
SIFormerは、まず、セグメンテーションと奥行き誘導によるビュー変換中のバックグラウンドノイズを抑圧する。
次に、2DインスタンスキューをBEV空間に注入するクロスビューアクティベーション機構を導入し、弱いレーダー幾何学の下で信頼性の高いインスタンス認識を可能にする。
最後に、トランスベースの融合モジュールは、堅牢な知覚のための補完的な画像意味論とレーダー幾何学を集約する。
その結果、SIFormerは2つのパラダイム間のギャップを埋め、その相補的な強度を組み合わせ、レーダー固有のスパースの性質に対処し、検出精度を向上させる。
実験の結果、SIFormerはView-of-Delft、TJ4DRadSet、NuScenesのデータセットで最先端のパフォーマンスを実現している。
ソースコードはgithub.com/shawnnnkb/SIFormerで入手できる。
関連論文リスト
- TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。
具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。
その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-12-12T00:08:03Z) - SFGFusion: Surface Fitting Guided 3D Object Detection with 4D Radar and Camera Fusion [12.877894178462297]
表面実装で誘導される新しいカメラ4Dイメージングレーダ検出ネットワークであるSFGFusionを紹介する。
明示的な表面嵌合モデルにより、空間表現とクロスモーダル相互作用が向上し、より信頼性の高い細粒度深度予測が可能となる。
実験結果から、SFGFusionはカメラと4Dレーダを効果的に融合させ、TJ4DRadSetとVoD(View-of-delft)オブジェクト検出ベンチマークにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-10-22T03:56:27Z) - MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving [31.26862558777292]
MLF-4DRCNetは4次元レーダとカメラ画像の多層融合による3次元物体検出のための新しいフレームワークである。
ポイントレベル、シーンレベル、プロポーザルレベルのマルチモーダル情報を組み込んで、包括的な特徴表現を可能にする。
これは、View-of-Delftデータセット上のLiDARベースのモデルに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-23T04:02:28Z) - CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection [11.109888378081187]
本稿では,CVFusionと呼ばれる2段階間核融合ネットワークを提案する。
第1段階では、高リコール3D提案ボックスを生成するために、レーダ誘導反復(RGIter)BEV融合モジュールを設計する。
第2段階では、各提案のポイント、イメージ、BEVを含む複数の異種ビューから特徴を集約する。
提案手法は,ビュー・オブ・デルフト(VoD)とTJ4DRadSetでそれぞれ9.10%,3.68%のmAP改善を達成し,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T00:45:53Z) - ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving [7.037019489455008]
本研究では、4次元レーダと視覚のモダリティを融合した3次元物体検出手法ZFusionを提案する。
FP-DDCAフェイザーはTransformerブロックをパックし、異なるスケールのマルチモーダル機能をインタラクティブに融合する。
実験の結果、ZFusionは興味のある領域で最先端のmAPを達成した。
論文 参考訳(メタデータ) (2025-04-04T13:29:32Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。