論文の概要: CFMW: Cross-modality Fusion Mamba for Robust Object Detection under Adverse Weather
- arxiv url: http://arxiv.org/abs/2404.16302v2
- Date: Tue, 08 Jul 2025 14:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:36.342148
- Title: CFMW: Cross-modality Fusion Mamba for Robust Object Detection under Adverse Weather
- Title(参考訳): CFMW:逆気象下でのロバスト物体検出のためのクロスモーダリティ・フュージョン・マンバ
- Authors: Haoyuan Li, Qi Hu, Binjia Zhou, You Yao, Jiacheng Lin, Kailun Yang, Peng Chen,
- Abstract要約: 気象条件下での安定性と費用対効果を高めるため,CFMWを用いたクロスモダリティ・フュージョン・マンバを提案する。
CFMWは、悪天候による視覚的特徴を再構築することができ、画像の詳細を表現できる。
関連するデータセットのギャップを埋めるため、Severre Weather Visible-Infrared(SWVI)データセットを構築した。
- 参考スコア(独自算出の注目度): 15.472015859766069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-infrared image pairs provide complementary information, enhancing the reliability and robustness of object detection applications in real-world scenarios. However, most existing methods face challenges in maintaining robustness under complex weather conditions, which limits their applicability. Meanwhile, the reliance on attention mechanisms in modality fusion introduces significant computational complexity and storage overhead, particularly when dealing with high-resolution images. To address these challenges, we propose the Cross-modality Fusion Mamba with Weather-removal (CFMW) to augment stability and cost-effectiveness under adverse weather conditions. Leveraging the proposed Perturbation-Adaptive Diffusion Model (PADM) and Cross-modality Fusion Mamba (CFM) modules, CFMW is able to reconstruct visual features affected by adverse weather, enriching the representation of image details. With efficient architecture design, CFMW is 3 times faster than Transformer-style fusion (e.g., CFT). To bridge the gap in relevant datasets, we construct a new Severe Weather Visible-Infrared (SWVI) dataset, encompassing diverse adverse weather scenarios such as rain, haze, and snow. The dataset contains 64,281 paired visible-infrared images, providing a valuable resource for future research. Extensive experiments on public datasets (i.e., M3FD and LLVIP) and the newly constructed SWVI dataset conclusively demonstrate that CFMW achieves state-of-the-art detection performance. Both the dataset and source code will be made publicly available at https://github.com/lhy-zjut/CFMW.
- Abstract(参考訳): 可視赤外画像ペアは補完的な情報を提供し、現実世界のシナリオにおけるオブジェクト検出アプリケーションの信頼性と堅牢性を高める。
しかし、既存のほとんどの手法は、複雑な気象条件下で堅牢性を維持することの難しさに直面しており、適用性は制限されている。
一方、モダリティ融合における注意機構への依存は、特に高解像度画像を扱う場合、計算複雑性とストレージオーバーヘッドを著しく引き起こす。
これらの課題に対処するため,悪天候条件下での安定性と費用対効果を高めるため,CFMWを用いたクロスモダリティ・フュージョン・マンバを提案する。
提案した摂動適応拡散モデル(PADM)とCFMモジュールを利用して、CFMWは悪天候による視覚的特徴を再構築し、画像の詳細の表現を豊かにする。
効率的なアーキテクチャ設計では、CFMWはTransformerスタイルの融合(例えばCFT)の3倍高速である。
関連するデータセットのギャップを埋めるため、雨や干し草、雪などのさまざまな悪天候シナリオを包含する、Severre Weather Visible-Infrared(SWVI)データセットを構築した。
このデータセットには64,281対の可視赤外線画像が含まれており、将来の研究に貴重なリソースを提供する。
公共データセット(M3FDとLLVIP)と新しく構築されたSWVIデータセットに関する大規模な実験は、CFMWが最先端検出性能を達成することを決定的に証明している。
データセットとソースコードはhttps://github.com/lhy-zjut/CFMWで公開されている。
関連論文リスト
- ContextualFusion: Context-Based Multi-Sensor Fusion for 3D Object Detection in Adverse Operating Conditions [1.7537812081430004]
本研究では,3次元物体検出モデルにカメラやライダーの知識を取り入れたContextualFusionという手法を提案する。
我々の手法は、文脈バランスの取れた合成データセットの最先端手法に対して6.2%のmAP改善をもたらす。
本手法は,実世界のNuScenesデータセット上での夜間の3D対物性能を11.7%向上させる。
論文 参考訳(メタデータ) (2024-04-23T06:37:54Z) - Beyond Night Visibility: Adaptive Multi-Scale Fusion of Infrared and
Visible Images [49.75771095302775]
赤外線および可視画像を用いた適応型マルチスケール核融合ネットワーク(AMFusion)を提案する。
まず、赤外画像と可視画像から空間的特徴と意味的特徴を分離し、前者が光分布の調整に使用される。
第2に,事前学習したバックボーンから抽出した検出機能を利用して,意味的特徴の融合を誘導する。
第3に、通常の光強度で融合画像を制約する新しい照明損失を提案する。
論文 参考訳(メタデータ) (2024-03-02T03:52:07Z) - Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection [6.388430091498446]
レーダとカメラデータの整合性を向上する2つの新しいレーダ前処理手法を提案する。
また,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。
我々のアプローチは、nuScenesデータセットにおける現在の最先端のレーダーカメラフュージョンベースのオブジェクト検出器よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T09:26:13Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Pay "Attention" to Adverse Weather: Weather-aware Attention-based Object
Detection [5.816506391882502]
本稿では,マルチモーダルセンシングストリームを適応的に融合させるGLA(Global-Local Attention)フレームワークを提案する。
具体的には、GLAは、ローカルアテンションネットワークを介してアーリーステージフュージョンと、グローバルアテンションネットワークを介してレイトステージフュージョンを統合し、ローカル情報とグローバル情報の両方を扱う。
実験により, 提案したGLAの性能は, 最先端核融合法と比較して優れていた。
論文 参考訳(メタデータ) (2022-04-22T16:32:34Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Fusion Detection via Distance-Decay IoU and weighted Dempster-Shafer
Evidence Theory [0.0]
高速なマルチソース核融合検出フレームワークが提案されている。
ターゲットの形状特性を符号化するために、ユニオン上の新しい距離デカイ交叉を用いる。
重み付けされたデンプスター・シェーファーのエビデンス理論は、光学と合成開口レーダ検出を組み合わせたものである。
論文 参考訳(メタデータ) (2021-12-06T13:46:39Z) - Lidar Light Scattering Augmentation (LISA): Physics-based Simulation of
Adverse Weather Conditions for 3D Object Detection [60.89616629421904]
ライダーベースの物体検出器は、自動運転車のような自律ナビゲーションシステムにおいて、3D知覚パイプラインの重要な部分である。
降雨、雪、霧などの悪天候に敏感で、信号-雑音比(SNR)と信号-背景比(SBR)が低下している。
論文 参考訳(メタデータ) (2021-07-14T21:10:47Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。