Fugu-MT 論文翻訳(概要): Selection, Not Fusion: Radar-Modulated State Space Models for Radar-Camera Depth Estimation

論文の概要: Selection, Not Fusion: Radar-Modulated State Space Models for Radar-Camera Depth Estimation

arxiv url: http://arxiv.org/abs/2605.11840v1
Date: Tue, 12 May 2026 09:25:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.753102
Title: Selection, Not Fusion: Radar-Modulated State Space Models for Radar-Camera Depth Estimation
Title（参考訳）: レーザー・カメラ深度推定のためのレーダ変調状態空間モデルの選択
Authors: Zhangcheng Hou, Tomoaki Ohtsuki,
Abstract要約: 我々は,ガンバの選択的スキャンにレーダーを注入する原理的手法であるRMS(Radar-Modulated Selection)を導入する。 RMS は nuScenes の最先端性能を達成し、以前の 0-50, 0-70, 0-80m で、MAE を 34.0%, 29.9%, 29.9% で下げた。さらなるアブレーションにより、アウト・オブ・スキャン(out-of-scan)機能のブレンディングは、RMSの上に精度を増すことなく、イン・オブ・スキャンの選択がアウト・オブ・スキャンの融合を置き換えるという実証的な検証を提供する。
参考スコア（独自算出の注目度）: 15.398789370857786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Radar-camera depth estimation must turn an ultra-sparse, all-weather, metric radar signal into a dense per-pixel depth map. Existing methods -- concatenation, confidence-aware gating, sparse supervision, graph-based extraction -- combine radar and image features outside the backbone's sequence operator, and even cross-modal Mamba variants leave the selection mechanism itself unimodal. We argue that the selection mechanism is the right place for radar to enter. We introduce Radar-Modulated Selection (RMS), a minimal and principled way to inject radar into Mamba's selective scan: radar modulates the scan from within, adding zero-initialised perturbations to the step size $Δ$ and readout $\mathbf{C}$ while leaving the input projection $\mathbf{B}$ and state dynamics $\mathbf{A}$ image-only. The construction is exactly equivalent to a pretrained image-only Mamba at initialisation, ensuring radar only influences the model where it improves accuracy. Two further properties follow that out-of-scan fusion cannot offer: linear-cost cross-modal coupling at every recurrence step, and a natural fallback to the image-only backbone when radar is absent. We deploy RMS in a Multi-View Scan Pyramid (MVSP) that matches the fusion operator to radar's spatial reach at each scale. SemoDepth achieves state-of-the-art performance on nuScenes, reducing MAE by 34.0%, 29.9%, and 29.9% over the previous best at 0--50, 0--70, and 0--80m, while attaining the lowest single-frame latency (26.8ms). A further ablation shows that out-of-scan feature blending adds no accuracy on top of RMS, providing empirical validation that in-scan selection can replace out-of-scan fusion.
Abstract（参考訳）: レーダーカメラの深度推定は、超スパースで全天候のメートル法レーダー信号を高密度のピクセルごとの深度マップに変換する必要がある。既存の手法 -- 結合、信頼を意識したゲーティング、スパース監視、グラフベースの抽出 -- は、バックボーンのシーケンス演算子の外でレーダーと画像の特徴を組み合わせる。我々は、選択メカニズムがレーダーが入るのに適した場所であると主張している。レーダーは内部からスキャンを変調し、ゼロ初期化摂動をステップサイズに$Δ$とreadout $\mathbf{C}$に加え、入力プロジェクションは$\mathbf{B}$、状態ダイナミクスは$\mathbf{A}$画像のみである。この構造は、初期化時に事前訓練されたイメージのみのマンバと全く同じであり、レーダーが精度を向上させるモデルにのみ影響を及ぼすことを保証している。さらに2つの特性は、アウト・オブ・スキャン融合は、繰り返しステップ毎に線形コストのクロスモーダル結合が提供できないこと、レーダーが欠如しているときに画像のみのバックボーンに自然にフォールバックすることである。 RMSをMulti-View Scan Pyramid (MVSP) にデプロイし、核融合作用素とレーダーの空間的到達度を各スケールで一致させる。 SemoDepth は nuScenes の最先端性能を達成し、MAE を 34.0%、29.9%、29.9% に減らし、0-50、0-70、0-80m で、シングルフレームのレイテンシは最低 (26.8ms) である。さらなるアブレーションにより、アウト・オブ・スキャン(out-of-scan)機能のブレンディングは、RMSの上に精度を増すことなく、イン・オブ・スキャンの選択がアウト・オブ・スキャンの融合を置き換えるという実証的な検証を提供する。

関連論文リスト

RadarSplat-RIO: Indoor Radar-Inertial Odometry with Gaussian Splatting-Based Radar Bundle Adjustment [15.74169173366249]
レーダーは視覚とライダーの同時位置決めとマッピング(SLAM)よりも悪天候や照明条件に耐性があるほとんどのレーダーSLAMパイプラインは依然としてフレーム・ツー・フレームのドリフトに大きく依存している。本稿では,高密度かつ微分可能な表現であるGaussian Splatting(GS)によって実現された,最初のレーダバンドル調整(BA)フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-15T05:26:46Z)
RadarGen: Automotive Radar Point Cloud Generation from Cameras [64.69976771710057]
マルチビューカメラ画像からリアルな自動車用レーダー点雲を合成するための拡散モデルRadarGenを提案する。 RadarGenは、鳥の目視でレーダー計測を表現することで、レーダ領域への効率的な画像遅延拡散を適応する。本稿では,RadarGenが特徴的レーダ計測分布を捕捉し,実データに基づいて学習した知覚モデルとのギャップを小さくすることを示す。
論文参考訳（メタデータ） (2025-12-19T18:57:33Z)
TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion [54.46664104437454]
一段核融合を用いた効率的かつ正確なレーダ・カメラ深度推定モデルであるTacoDepthを提案する。具体的には、グラフベースのRadar構造抽出器とピラミッドベースのRadar融合モジュールを設計する。従来の最先端のアプローチと比較して、TacoDepthは深さ精度と処理速度を12.8%、91.8%改善している。
論文参考訳（メタデータ） (2025-04-16T05:25:04Z)
RICCARDO: Radar Hit Prediction and Convolution for Camera-Radar 3D Object Detection [16.872776956141195]
我々は,単分子検出器から得られた物体特性に基づいて,レーダの衝突分布を予測するモデルを構築した。我々は,予測分布をカーネルとして,単分子検出近傍の実際のレーダ点と一致させる。提案手法は, nuScenes 上での最先端レーダーカメラ検出性能を実現する。
論文参考訳（メタデータ） (2025-04-12T05:37:42Z)
RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。レーダーは騒音と位置のあいまいさに悩まされる。本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文参考訳（メタデータ） (2025-02-18T17:17:38Z)
HGSFusion: Radar-Camera Fusion with Hybrid Generation and Synchronization for 3D Object Detection [10.91039672865197]
ミリ波レーダーは、自律走行のための3次元物体検出において重要な役割を果たす。レーダー点雲は、鮮明な間隔と避けられない角度推定誤差に悩まされる。レーダーとカメラデータの直接融合は、負の効果や反対効果につながる可能性がある。
論文参考訳（メタデータ） (2024-12-16T07:06:17Z)
Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文参考訳（メタデータ） (2024-05-07T20:44:48Z)
Echoes Beyond Points: Unleashing the Power of Raw Radar Data in Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文参考訳（メタデータ） (2023-07-31T09:53:50Z)
MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion [6.639648061168067]
マルチビューレーダーカメラで融合した3Dオブジェクト検出は、より遠くの検知範囲と自律運転に有用な機能を提供する。現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータで融合するための種類の設計を提供する。セマンティック・アライメント・レーダ機能を実現するための新しいマルチビューレーダカメラフュージョン法であるMVFusionを提案する。
論文参考訳（メタデータ） (2023-02-21T08:25:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。