論文の概要: physfusion: A Transformer-based Dual-Stream Radar and Vision Fusion Framework for Open Water Surface Object Detection
- arxiv url: http://arxiv.org/abs/2603.01947v1
- Date: Mon, 02 Mar 2026 15:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.922766
- Title: physfusion: A Transformer-based Dual-Stream Radar and Vision Fusion Framework for Open Water Surface Object Detection
- Title(参考訳): フィスフュージョン:開放水面物体検出のためのトランスフォーマーを用いたデュアルストリームレーダとビジョンフュージョンフレームワーク
- Authors: Yuting Wan, Liguo Sun, Jiuwu Hao, Zao Zhang, Pin LV,
- Abstract要約: PhysFusionは、水面知覚のための物理インフォームドレーダー画像検出フレームワークである。
物理インレーダ(PIR)とRCSマッパーと品質ゲートを統合し、ポイント当たりのレーダ特性をコンパクトな散乱前処理に変換する。
WaterScenesとFLOWの実験は、PhysFusionがWaterScenesで59.7% mAP50:95と90.3% mAP50を達成したことを示している。
- 参考スコア(独自算出の注目度): 3.3795150675738808
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting water-surface targets for Unmanned Surface Vehicles (USVs) is challenging due to wave clutter, specular reflections, and weak appearance cues in long-range observations. Although 4D millimeter-wave radar complements cameras under degraded illumination, maritime radar point clouds are sparse and intermittent, with reflectivity attributes exhibiting heavy-tailed variations under scattering and multipath, making conventional fusion designs struggle to exploit radar cues effectively. We propose PhysFusion, a physics-informed radar-image detection framework for water-surface perception. The framework integrates: (1) a Physics-Informed Radar Encoder (PIR Encoder) with an RCS Mapper and Quality Gate, transforming per-point radar attributes into compact scattering priors and predicting point-wise reliability for robust feature learning under clutter; (2) a Radar-guided Interactive Fusion Module (RIFM) performing query-level radar-image fusion between semantically enriched radar features and multi-scale visual features, with the radar branch modeled by a dual-stream backbone including a point-based local stream and a transformer-based global stream using Scattering-Aware Self-Attention (SASA); and (3) a Temporal Query Aggregation module (TQA) aggregating frame-wise fused queries over a short temporal window for temporally consistent representations. Experiments on WaterScenes and FLOW demonstrate that PhysFusion achieves 59.7% mAP50:95 and 90.3% mAP50 on WaterScenes (T=5 radar history) using 5.6M parameters and 12.5G FLOPs, and reaches 94.8% mAP50 and 46.2% mAP50:95 on FLOW under radar+camera setting. Ablation studies quantify the contributions of PIR Encoder, SASA-based global reasoning, and RIFM.
- Abstract(参考訳): 非有人表面車両(USV)の水面目標の検出は、長距離観測における波乱、反射、および弱い外見の手がかりにより困難である。
4Dミリ波レーダーは、劣化した照明下でのカメラを補完するが、海洋レーダー点雲は狭く断続的であり、反射率特性は散乱とマルチパスの下で重尾のばらつきを示すため、従来の核融合設計はレーダーの手がかりを効果的に活用するのに苦労する。
水面認識のための物理インフォームドレーダ画像検出フレームワークであるPhysFusionを提案する。
1)物理インフォームドレーダエンコーダ(PIRエンコーダ)とRCSマッパーと品質ゲート、点ごとのレーダ属性をコンパクトな散乱先行値に変換し、クラッタの下で堅牢な特徴学習のためのポイントワイズ信頼性を予測する(2)Radar-Guided Interactive Fusion Module(RIFM)と、セマンティックエンリッチレーダ特徴とマルチスケール視覚特徴とのクエリレベルレーダイメージ融合を行うRadarブランチを、ポイントベースローカルストリームとScattering-Aware Self-Attention(SASA)を用いたトランスフォーマーベースのグローバルストリームを含むデュアルストリームバックボーンでモデル化し、(3)テンポラリクエリアグリゲーションモジュール(TQA)は、時間的に一貫したウィンドウ上でのクエリを疎結合する。
WaterScenesとFLOWの実験では、PhysFusionは5.6Mパラメータと12.5G FLOPを用いてWaterScenesで59.7% mAP50:95と90.3% mAP50を達成し、FLOWでは94.8% mAP50と46.2% mAP50:95に達する。
アブレーション研究は、PIRエンコーダ、SASAベースのグローバル推論、RIFMの貢献を定量化する。
関連論文リスト
- HyperDet: 3D Object Detection with Hyper 4D Radar Point Clouds [7.899148878601621]
検出器に依存しないレーダーのみの3D検出フレームワークであるHyperDetを提案する。
標準的なLiDAR指向検出器のためのタスク対応のハイパー4Dレーダーポイントクラウドを構築している。
MAN TruckScenesでは、HyperDetはVoxelNeXtとCenterPointによる生のレーダー入力よりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-02-12T04:21:58Z) - Wavelet-based Multi-View Fusion of 4D Radar Tensor and Camera for Robust 3D Object Detection [44.78575994732947]
WRCFormerは、デカップリングされたレーダーキューブのマルチビュー表現を介して、生のレーダーキューブとカメラ入力を融合する新しい3Dオブジェクト検出フレームワークである。
WRCFormerはK-Radarベンチマークで最先端のパフォーマンスを達成し、すべてのシナリオで最高のモデルを約2.4%上回っている。
論文 参考訳(メタデータ) (2025-12-28T15:32:17Z) - RadarGen: Automotive Radar Point Cloud Generation from Cameras [64.69976771710057]
マルチビューカメラ画像からリアルな自動車用レーダー点雲を合成するための拡散モデルRadarGenを提案する。
RadarGenは、鳥の目視でレーダー計測を表現することで、レーダ領域への効率的な画像遅延拡散を適応する。
本稿では,RadarGenが特徴的レーダ計測分布を捕捉し,実データに基づいて学習した知覚モデルとのギャップを小さくすることを示す。
論文 参考訳(メタデータ) (2025-12-19T18:57:33Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - V2X-R: Cooperative LiDAR-4D Radar Fusion with Denoising Diffusion for 3D Object Detection [64.93675471780209]
我々は、LiDAR、カメラ、および4Dレーダを取り入れた初のシミュレーションV2XデータセットであるV2X-Rを提案する。
V2X-Rには12,079のシナリオがあり、LiDARと4Dレーダーポイント雲の37,727フレーム、150,908の画像、170,859の注釈付き3D車両バウンディングボックスがある。
本稿では,3次元物体検出のための新しいコラボレーティブLiDAR-4Dレーダ融合パイプラインを提案し,様々な融合戦略を用いて実装する。
論文 参考訳(メタデータ) (2024-11-13T07:41:47Z) - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - Diffusion-Based Point Cloud Super-Resolution for mmWave Radar Data [8.552647576661174]
ミリ波レーダセンサは、環境条件下では安定した性能を維持している。
レーダー点雲は比較的希薄で、巨大なゴーストポイントを含んでいる。
本稿では3次元ミリ波レーダデータに対する新しい点雲超解像法,Radar-diffusionを提案する。
論文 参考訳(メタデータ) (2024-04-09T04:41:05Z) - Radarize: Enhancing Radar SLAM with Generalizable Doppler-Based Odometry [9.420543997290126]
Radarizeは、コモディティ単一チップmmWaveレーダーのみを使用する、自己完結型SLAMパイプラインである。
本手法は,最先端のレーダおよびレーダ慣性アプローチを計測値で約5倍,エンドツーエンドのSLAMで約8倍に向上する。
論文 参考訳(メタデータ) (2023-11-19T07:47:11Z) - MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and
Camera Fusion [6.639648061168067]
マルチビューレーダーカメラで融合した3Dオブジェクト検出は、より遠くの検知範囲と自律運転に有用な機能を提供する。
現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータで融合するための種類の設計を提供する。
セマンティック・アライメント・レーダ機能を実現するための新しいマルチビューレーダカメラフュージョン法であるMVFusionを提案する。
論文 参考訳(メタデータ) (2023-02-21T08:25:50Z) - LiRaNet: End-to-End Trajectory Prediction using Spatio-Temporal Radar
Fusion [52.59664614744447]
本稿では,レーダセンサ情報と広範に使用されているライダーと高精細度(HD)マップを用いた新しい終端軌道予測手法LiRaNetを提案する。
自動車レーダーは、リッチで補完的な情報を提供し、より長い距離の車両検出と即時速度測定を可能にします。
論文 参考訳(メタデータ) (2020-10-02T00:13:00Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。