論文の概要: Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified
3D Perception
- arxiv url: http://arxiv.org/abs/2403.07746v1
- Date: Tue, 12 Mar 2024 15:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:07:09.575592
- Title: Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified
3D Perception
- Title(参考訳): 脱離型HyDRa : ハイブリッド核融合, 深部整合性, レーダによる3次元認識
- Authors: Philipp Wolters, Johannes Gilg, Torben Teepe, Fabian Herzog, Anouar
Laouichi, Martin Hofmann, Gerhard Rigoll
- Abstract要約: 多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。
我々のハイト・アソシエーション・トランスフォーマー・モジュールは、すでに視界のレーダー機能を利用して、より堅牢で正確な深度予測を行う。
HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。
- 参考スコア(独自算出の注目度): 6.217857116096573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-cost, vision-centric 3D perception systems for autonomous driving have
made significant progress in recent years, narrowing the gap to expensive
LiDAR-based methods. The primary challenge in becoming a fully reliable
alternative lies in robust depth prediction capabilities, as camera-based
systems struggle with long detection ranges and adverse lighting and weather
conditions. In this work, we introduce HyDRa, a novel camera-radar fusion
architecture for diverse 3D perception tasks. Building upon the principles of
dense BEV (Bird's Eye View)-based architectures, HyDRa introduces a hybrid
fusion approach to combine the strengths of complementary camera and radar
features in two distinct representation spaces. Our Height Association
Transformer module leverages radar features already in the perspective view to
produce more robust and accurate depth predictions. In the BEV, we refine the
initial sparse representation by a Radar-weighted Depth Consistency. HyDRa
achieves a new state-of-the-art for camera-radar fusion of 64.2 NDS (+1.8) and
58.4 AMOTA (+1.5) on the public nuScenes dataset. Moreover, our new
semantically rich and spatially accurate BEV features can be directly converted
into a powerful occupancy representation, beating all previous camera-based
methods on the Occ3D benchmark by an impressive 3.7 mIoU.
- Abstract(参考訳): 自動運転車のための低コストで視覚中心の3D認識システムは、近年大きく進歩し、高価なLiDARベースの方法とのギャップを狭めた。
完全に信頼性の高い代替手段となる上での最大の課題は、カメラベースのシステムが長い検知範囲と、照明と気象条件に苦しむため、堅牢な深度予測能力である。
本研究では,多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。
密度の高いBEV(Bird's Eye View)ベースのアーキテクチャの原則に基づいて、HyDRaは2つの異なる表現空間における補完カメラとレーダーの特徴の強みを組み合わせるためのハイブリッド融合アプローチを導入した。
当社のハイプアソシエーショントランスフォーマーモジュールは、よりロバストで正確な深さ予測を生成するために、パースペクティブビューですでにレーダー機能を活用しています。
BEVでは、レーダ重み付き深度一貫性により初期スパース表現を洗練する。
HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。
さらに、我々の新しいセマンティックにリッチで空間的に正確なBEV機能は、Occ3Dベンチマークの以前のカメラベースの手法を3.7 mIoUで圧倒し、強力な占有率の表現へと直接変換することができる。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - MetaOcc: Surround-View 4D Radar and Camera Fusion Framework for 3D Occupancy Prediction with Dual Training Strategies [10.662778683303726]
本稿では,新しいマルチモーダル占有予測フレームワークであるMetaOccを提案する。
我々はまず,スパースレーダ点からの有効3次元特徴抽出のための高さ自己注意モジュールを設計する。
最後に,擬似ラベル生成のためのオープンセットセグメンタと幾何学的制約を利用した半教師付きトレーニング手法を開発した。
論文 参考訳(メタデータ) (2025-01-26T03:51:56Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは64.9%のmAPと70.2%のNDSをnuScene上で達成し、LiDARベースの検出器よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文 参考訳(メタデータ) (2024-09-08T05:14:27Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。