論文の概要: Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified
3D Perception
- arxiv url: http://arxiv.org/abs/2403.07746v1
- Date: Tue, 12 Mar 2024 15:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:07:09.575592
- Title: Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified
3D Perception
- Title(参考訳): 脱離型HyDRa : ハイブリッド核融合, 深部整合性, レーダによる3次元認識
- Authors: Philipp Wolters, Johannes Gilg, Torben Teepe, Fabian Herzog, Anouar
Laouichi, Martin Hofmann, Gerhard Rigoll
- Abstract要約: 多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。
我々のハイト・アソシエーション・トランスフォーマー・モジュールは、すでに視界のレーダー機能を利用して、より堅牢で正確な深度予測を行う。
HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。
- 参考スコア(独自算出の注目度): 6.217857116096573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-cost, vision-centric 3D perception systems for autonomous driving have
made significant progress in recent years, narrowing the gap to expensive
LiDAR-based methods. The primary challenge in becoming a fully reliable
alternative lies in robust depth prediction capabilities, as camera-based
systems struggle with long detection ranges and adverse lighting and weather
conditions. In this work, we introduce HyDRa, a novel camera-radar fusion
architecture for diverse 3D perception tasks. Building upon the principles of
dense BEV (Bird's Eye View)-based architectures, HyDRa introduces a hybrid
fusion approach to combine the strengths of complementary camera and radar
features in two distinct representation spaces. Our Height Association
Transformer module leverages radar features already in the perspective view to
produce more robust and accurate depth predictions. In the BEV, we refine the
initial sparse representation by a Radar-weighted Depth Consistency. HyDRa
achieves a new state-of-the-art for camera-radar fusion of 64.2 NDS (+1.8) and
58.4 AMOTA (+1.5) on the public nuScenes dataset. Moreover, our new
semantically rich and spatially accurate BEV features can be directly converted
into a powerful occupancy representation, beating all previous camera-based
methods on the Occ3D benchmark by an impressive 3.7 mIoU.
- Abstract(参考訳): 自動運転車のための低コストで視覚中心の3D認識システムは、近年大きく進歩し、高価なLiDARベースの方法とのギャップを狭めた。
完全に信頼性の高い代替手段となる上での最大の課題は、カメラベースのシステムが長い検知範囲と、照明と気象条件に苦しむため、堅牢な深度予測能力である。
本研究では,多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。
密度の高いBEV(Bird's Eye View)ベースのアーキテクチャの原則に基づいて、HyDRaは2つの異なる表現空間における補完カメラとレーダーの特徴の強みを組み合わせるためのハイブリッド融合アプローチを導入した。
当社のハイプアソシエーショントランスフォーマーモジュールは、よりロバストで正確な深さ予測を生成するために、パースペクティブビューですでにレーダー機能を活用しています。
BEVでは、レーダ重み付き深度一貫性により初期スパース表現を洗練する。
HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。
さらに、我々の新しいセマンティックにリッチで空間的に正確なBEV機能は、Occ3Dベンチマークの以前のカメラベースの手法を3.7 mIoUで圧倒し、強力な占有率の表現へと直接変換することができる。
関連論文リスト
- WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文 参考訳(メタデータ) (2024-09-08T05:14:27Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文 参考訳(メタデータ) (2022-12-09T05:48:58Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。