Fugu-MT 論文翻訳(概要): Multi-Modal Sensor Fusion using Hybrid Attention for Autonomous Driving

論文の概要: Multi-Modal Sensor Fusion using Hybrid Attention for Autonomous Driving

arxiv url: http://arxiv.org/abs/2604.04797v1
Date: Mon, 06 Apr 2026 16:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.268126
Title: Multi-Modal Sensor Fusion using Hybrid Attention for Autonomous Driving
Title（参考訳）: ハイブリッドアテンションを用いた多モードセンサフュージョンによる自律走行
Authors: Mayank Mayank, Bharanidhar Duraisamy, Florian Geiß, Abhinav Valada,
Abstract要約: 異機種間特徴アライメントに変形可能な注意を生かしたレーダカメラBEV融合フレームワークを提案する。 MMF-BEVはBEVDepthカメラブランチとRadarBEVNetレーダーブランチを構築し、それぞれがDeformable Self-Attentionで強化されている。センサコントリビューション分析は、距離ごとのモジュラリティ重み付けを定量化し、センサ相補性の解釈可能な証拠を提供する。
参考スコア（独自算出の注目度）: 13.624495460189863
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accurate 3D object detection for autonomous driving requires complementary sensors. Cameras provide dense semantics but unreliable depth, while millimeter-wave radar offers precise range and velocity measurements with sparse geometry. We propose MMF-BEV, a radar-camera BEV fusion framework that leverages deformable attention for cross-modal feature alignment on the View-of-Delft (VoD) 4D radar dataset [1]. MMF-BEV builds a BEVDepth [2] camera branch and a RadarBEVNet [3] radar branch, each enhanced with Deformable Self-Attention, and fuses them via a Deformable Cross-Attention module. We evaluate three configurations: camera-only, radar-only, and hybrid fusion. A sensor contribution analysis quantifies per-distance modality weighting, providing interpretable evidence of sensor complementarity. A two-stage training strategy - pre-training the camera branch with depth supervision, then jointly training radar and fusion modules stabilizes learning. Experiments on VoD show that MMF-BEV consistently outperforms unimodal baselines and achieves competitive results against prior fusion methods across all object classes in both the full annotated area and near-range Region of Interest.
Abstract（参考訳）: 自律走行のための正確な3Dオブジェクト検出には補完的なセンサーが必要である。カメラは密接なセマンティクスを提供するが、信頼性の低い深さを提供する。本研究では,VoD(View-of-Delft)4Dレーダデータセット上の異機種間特徴アライメントに対して,変形可能な注意力を利用するレーダーカメラBEV融合フレームワークMMF-BEVを提案する。 MMF-BEVは、BEVDepth [2]カメラブランチとRadarBEVNet[3]レーダーブランチを構築し、それぞれがDeformable Self-Attentionで拡張され、Deformable Cross-Attentionモジュールを介してそれらを融合する。カメラオンリー、レーダーオンリー、ハイブリッドフュージョンの3つの構成を評価した。センサコントリビューション分析は、距離ごとのモジュラリティ重み付けを定量化し、センサ相補性の解釈可能な証拠を提供する。 2段階のトレーニング戦略 - 深度監視でカメラブランチを事前トレーニングした後、レーダーと融合モジュールを共同でトレーニングすることで、学習を安定させる。 VoD 実験の結果,MMF-BEV は単調なベースラインを一貫して上回り,全アノテート領域と近距離領域の両方において,全対象クラスにわたる事前融合法に対する競合的な結果が得られることがわかった。

関連論文リスト

RadarGen: Automotive Radar Point Cloud Generation from Cameras [64.69976771710057]
マルチビューカメラ画像からリアルな自動車用レーダー点雲を合成するための拡散モデルRadarGenを提案する。 RadarGenは、鳥の目視でレーダー計測を表現することで、レーダ領域への効率的な画像遅延拡散を適応する。本稿では,RadarGenが特徴的レーダ計測分布を捕捉し,実データに基づいて学習した知覚モデルとのギャップを小さくすることを示す。
論文参考訳（メタデータ） (2025-12-19T18:57:33Z)
RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。レーダーは騒音と位置のあいまいさに悩まされる。本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文参考訳（メタデータ） (2025-02-18T17:17:38Z)
RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。 RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文参考訳（メタデータ） (2024-09-08T05:14:27Z)
RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection [33.07575082922186]
3次元物体検出は、自律運転における重要なタスクの1つである。カメラのみに頼って高度に正確で頑丈な3Dオブジェクト検出を実現するのは難しい。鳥眼ビュー(BEV)におけるレーダーカメラ融合3次元物体検出法 RadarBEVNetはデュアルストリームのレーダーバックボーンとRadar Cross-Section (RC)対応のBEVエンコーダで構成されている。
論文参考訳（メタデータ） (2024-03-25T06:02:05Z)
RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection [15.686167262542297]
本稿では,機能レベルとインスタンスレベルの両モードを融合するRadar-Camera Multi-level fusion (RCM-Fusion)を提案する。特徴レベルの融合のために,カメラ特徴を正確なBEV表現に変換するRadar Guided BEVを提案する。実例レベルでの融合では,ローカライズエラーを低減するRadar Grid Point Refinementモジュールを提案する。
論文参考訳（メタデータ） (2023-07-17T07:22:25Z)
Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-06-02T10:57:41Z)
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T12:29:29Z)
Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文参考訳（メタデータ） (2022-05-27T05:42:16Z)
LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文参考訳（メタデータ） (2021-08-17T08:53:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。