Fugu-MT 論文翻訳(概要): Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

論文の概要: Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

arxiv url: http://arxiv.org/abs/2403.07746v1
Date: Tue, 12 Mar 2024 15:28:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 21:07:09.575592
Title: Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception
Title（参考訳）: 脱離型HyDRa : ハイブリッド核融合, 深部整合性, レーダによる3次元認識
Authors: Philipp Wolters, Johannes Gilg, Torben Teepe, Fabian Herzog, Anouar Laouichi, Martin Hofmann, Gerhard Rigoll
Abstract要約: 多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。我々のハイト・アソシエーション・トランスフォーマー・モジュールは、すでに視界のレーダー機能を利用して、より堅牢で正確な深度予測を行う。 HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。
参考スコア（独自算出の注目度）: 6.217857116096573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Low-cost, vision-centric 3D perception systems for autonomous driving have made significant progress in recent years, narrowing the gap to expensive LiDAR-based methods. The primary challenge in becoming a fully reliable alternative lies in robust depth prediction capabilities, as camera-based systems struggle with long detection ranges and adverse lighting and weather conditions. In this work, we introduce HyDRa, a novel camera-radar fusion architecture for diverse 3D perception tasks. Building upon the principles of dense BEV (Bird's Eye View)-based architectures, HyDRa introduces a hybrid fusion approach to combine the strengths of complementary camera and radar features in two distinct representation spaces. Our Height Association Transformer module leverages radar features already in the perspective view to produce more robust and accurate depth predictions. In the BEV, we refine the initial sparse representation by a Radar-weighted Depth Consistency. HyDRa achieves a new state-of-the-art for camera-radar fusion of 64.2 NDS (+1.8) and 58.4 AMOTA (+1.5) on the public nuScenes dataset. Moreover, our new semantically rich and spatially accurate BEV features can be directly converted into a powerful occupancy representation, beating all previous camera-based methods on the Occ3D benchmark by an impressive 3.7 mIoU.
Abstract（参考訳）: 自動運転車のための低コストで視覚中心の3D認識システムは、近年大きく進歩し、高価なLiDARベースの方法とのギャップを狭めた。完全に信頼性の高い代替手段となる上での最大の課題は、カメラベースのシステムが長い検知範囲と、照明と気象条件に苦しむため、堅牢な深度予測能力である。本研究では,多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。密度の高いBEV(Bird's Eye View)ベースのアーキテクチャの原則に基づいて、HyDRaは2つの異なる表現空間における補完カメラとレーダーの特徴の強みを組み合わせるためのハイブリッド融合アプローチを導入した。当社のハイプアソシエーショントランスフォーマーモジュールは、よりロバストで正確な深さ予測を生成するために、パースペクティブビューですでにレーダー機能を活用しています。 BEVでは、レーダ重み付き深度一貫性により初期スパース表現を洗練する。 HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。さらに、我々の新しいセマンティックにリッチで空間的に正確なBEV機能は、Occ3Dベンチマークの以前のカメラベースの手法を3.7 mIoUで圧倒し、強力な占有率の表現へと直接変換することができる。

関連論文リスト

CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection [11.109888378081187]
本稿では,CVFusionと呼ばれる2段階間核融合ネットワークを提案する。第1段階では、高リコール3D提案ボックスを生成するために、レーダ誘導反復(RGIter)BEV融合モジュールを設計する。第2段階では、各提案のポイント、イメージ、BEVを含む複数の異種ビューから特徴を集約する。提案手法は,ビュー・オブ・デルフト(VoD)とTJ4DRadSetでそれぞれ9.10%,3.68%のmAP改善を達成し,従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-07T00:45:53Z)
Revisiting Radar Camera Alignment by Contrastive Learning for 3D Object Detection [31.69508809666884]
レーダとカメラ融合に基づく3次元物体検出アルゴリズムは優れた性能を示した。レーダカメラアライメント(RCAlign)と呼ばれる新しいアライメントモデルを提案する。具体的には、対向学習に基づくデュアルルートアライメント(DRA)モジュールを設計し、レーダとカメラの機能の整合と融合を図る。レーダBEV特性の空間性を考慮すると,レーダBEV特性の密度化を改善するためにRFEモジュールが提案されている。
論文参考訳（メタデータ） (2025-04-23T02:41:43Z)
RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。レーダーは騒音と位置のあいまいさに悩まされる。本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文参考訳（メタデータ） (2025-02-18T17:17:38Z)
Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。コードとモデルは公開されます。
論文参考訳（メタデータ） (2025-01-26T04:24:07Z)
RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。 RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文参考訳（メタデータ） (2024-12-17T09:47:48Z)
MSSF: A 4D Radar and Camera Fusion Framework With Multi-Stage Sampling for 3D Object Detection in Autonomous Driving [9.184945917823047]
本研究では,4次元レーダとカメラを用いた簡易かつ効果的なマルチステージサンプリング・フュージョン(MSSF)ネットワークを提案する。 MSSFは、View-of-Delft(VoD)とTJ4DRadsetデータセットの3D平均精度を7.0%と4.0%改善している。さらには、VoDデータセット上の古典的なLiDARベースのメソッドを超越している。
論文参考訳（メタデータ） (2024-11-22T15:45:23Z)
WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-09-18T18:46:51Z)
RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。 RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文参考訳（メタデータ） (2024-09-08T05:14:27Z)
CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文参考訳（メタデータ） (2023-10-04T13:38:53Z)
HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文参考訳（メタデータ） (2022-12-15T11:15:14Z)
SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。 We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文参考訳（メタデータ） (2022-12-09T05:48:58Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
Bridging the View Disparity of Radar and Camera Features for Multi-modal Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文参考訳（メタデータ） (2022-08-25T13:21:37Z)
Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。我々は、最先端の核融合法を初めてベンチマークした。
論文参考訳（メタデータ） (2022-05-30T09:35:37Z)
BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。 3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文参考訳（メタデータ） (2022-05-26T17:59:35Z)
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文参考訳（メタデータ） (2022-03-15T18:46:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。