論文の概要: CFMW: Cross-modality Fusion Mamba for Robust Object Detection under Adverse Weather
- arxiv url: http://arxiv.org/abs/2404.16302v2
- Date: Tue, 08 Jul 2025 14:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:36.342148
- Title: CFMW: Cross-modality Fusion Mamba for Robust Object Detection under Adverse Weather
- Title(参考訳): CFMW:逆気象下でのロバスト物体検出のためのクロスモーダリティ・フュージョン・マンバ
- Authors: Haoyuan Li, Qi Hu, Binjia Zhou, You Yao, Jiacheng Lin, Kailun Yang, Peng Chen,
- Abstract要約: 気象条件下での安定性と費用対効果を高めるため,CFMWを用いたクロスモダリティ・フュージョン・マンバを提案する。
CFMWは、悪天候による視覚的特徴を再構築することができ、画像の詳細を表現できる。
関連するデータセットのギャップを埋めるため、Severre Weather Visible-Infrared(SWVI)データセットを構築した。
- 参考スコア(独自算出の注目度): 15.472015859766069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-infrared image pairs provide complementary information, enhancing the reliability and robustness of object detection applications in real-world scenarios. However, most existing methods face challenges in maintaining robustness under complex weather conditions, which limits their applicability. Meanwhile, the reliance on attention mechanisms in modality fusion introduces significant computational complexity and storage overhead, particularly when dealing with high-resolution images. To address these challenges, we propose the Cross-modality Fusion Mamba with Weather-removal (CFMW) to augment stability and cost-effectiveness under adverse weather conditions. Leveraging the proposed Perturbation-Adaptive Diffusion Model (PADM) and Cross-modality Fusion Mamba (CFM) modules, CFMW is able to reconstruct visual features affected by adverse weather, enriching the representation of image details. With efficient architecture design, CFMW is 3 times faster than Transformer-style fusion (e.g., CFT). To bridge the gap in relevant datasets, we construct a new Severe Weather Visible-Infrared (SWVI) dataset, encompassing diverse adverse weather scenarios such as rain, haze, and snow. The dataset contains 64,281 paired visible-infrared images, providing a valuable resource for future research. Extensive experiments on public datasets (i.e., M3FD and LLVIP) and the newly constructed SWVI dataset conclusively demonstrate that CFMW achieves state-of-the-art detection performance. Both the dataset and source code will be made publicly available at https://github.com/lhy-zjut/CFMW.
- Abstract(参考訳): 可視赤外画像ペアは補完的な情報を提供し、現実世界のシナリオにおけるオブジェクト検出アプリケーションの信頼性と堅牢性を高める。
しかし、既存のほとんどの手法は、複雑な気象条件下で堅牢性を維持することの難しさに直面しており、適用性は制限されている。
一方、モダリティ融合における注意機構への依存は、特に高解像度画像を扱う場合、計算複雑性とストレージオーバーヘッドを著しく引き起こす。
これらの課題に対処するため,悪天候条件下での安定性と費用対効果を高めるため,CFMWを用いたクロスモダリティ・フュージョン・マンバを提案する。
提案した摂動適応拡散モデル(PADM)とCFMモジュールを利用して、CFMWは悪天候による視覚的特徴を再構築し、画像の詳細の表現を豊かにする。
効率的なアーキテクチャ設計では、CFMWはTransformerスタイルの融合(例えばCFT)の3倍高速である。
関連するデータセットのギャップを埋めるため、雨や干し草、雪などのさまざまな悪天候シナリオを包含する、Severre Weather Visible-Infrared(SWVI)データセットを構築した。
このデータセットには64,281対の可視赤外線画像が含まれており、将来の研究に貴重なリソースを提供する。
公共データセット(M3FDとLLVIP)と新しく構築されたSWVIデータセットに関する大規模な実験は、CFMWが最先端検出性能を達成することを決定的に証明している。
データセットとソースコードはhttps://github.com/lhy-zjut/CFMWで公開されている。
関連論文リスト
- PIF-Net: Ill-Posed Prior Guided Multispectral and Hyperspectral Image Fusion via Invertible Mamba and Fusion-Aware LoRA [0.16385815610837165]
マルチスペクトル・ハイパースペクトル画像融合(MHIF)の目的は、豊富なスペクトル情報と細かな空間的詳細を同時に持つ高品質な画像を生成することである。
これまでの研究では、データ修正が原因で生じる不適切な性質を効果的に扱っていなかった。
PIF-Net という名前の融合フレームワークを提案し,多重スペクトル画像とハイパースペクトル画像とを効果的に融合させる。
論文 参考訳(メタデータ) (2025-08-01T09:17:17Z) - DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - CRT-Fusion: Camera, Radar, Temporal Fusion Using Motion Information for 3D Object Detection [9.509625131289429]
本稿では,レーダカメラ融合に時間情報を統合する新しいフレームワークであるCRT-Fusionを紹介する。
CRT-Fusionはレーダーカメラによる3Dオブジェクト検出のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-05T11:25:19Z) - ContextualFusion: Context-Based Multi-Sensor Fusion for 3D Object Detection in Adverse Operating Conditions [1.7537812081430004]
本研究では,3次元物体検出モデルにカメラやライダーの知識を取り入れたContextualFusionという手法を提案する。
我々の手法は、文脈バランスの取れた合成データセットの最先端手法に対して6.2%のmAP改善をもたらす。
本手法は,実世界のNuScenesデータセット上での夜間の3D対物性能を11.7%向上させる。
論文 参考訳(メタデータ) (2024-04-23T06:37:54Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - VIFNet: An End-to-end Visible-Infrared Fusion Network for Image Dehazing [13.777195433138179]
本研究の目的は、画像デハージングのための可視赤外線融合ネットワークを設計することである。
特に,より空間的・限界的な情報を復元するための多スケール深層構造特徴抽出(DSFE)モジュールを提案する。
これを検証するために,AirSimシミュレーションプラットフォームに基づくAirSim-VIDと呼ばれる可視赤外マルチモーダルデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-11T14:31:11Z) - Beyond Night Visibility: Adaptive Multi-Scale Fusion of Infrared and
Visible Images [49.75771095302775]
赤外線および可視画像を用いた適応型マルチスケール核融合ネットワーク(AMFusion)を提案する。
まず、赤外画像と可視画像から空間的特徴と意味的特徴を分離し、前者が光分布の調整に使用される。
第2に,事前学習したバックボーンから抽出した検出機能を利用して,意味的特徴の融合を誘導する。
第3に、通常の光強度で融合画像を制約する新しい照明損失を提案する。
論文 参考訳(メタデータ) (2024-03-02T03:52:07Z) - MISFIT-V: Misaligned Image Synthesis and Fusion using Information from
Thermal and Visual [2.812395851874055]
本研究は、熱・視覚情報を用いた画像合成と融合のミスアライメントを提示する(MISFIT-V)。
GAN(Generative Adversarial Network)とクロスアテンション機構を利用して、各モードから最も関連性の高い特徴をキャプチャする。
実験結果からMISFIT-Vは, 配向不良や照明・熱環境の悪化に対して強靭性を示した。
論文 参考訳(メタデータ) (2023-09-22T23:41:24Z) - Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection [6.388430091498446]
レーダとカメラデータの整合性を向上する2つの新しいレーダ前処理手法を提案する。
また,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。
我々のアプローチは、nuScenesデータセットにおける現在の最先端のレーダーカメラフュージョンベースのオブジェクト検出器よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T09:26:13Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Pay "Attention" to Adverse Weather: Weather-aware Attention-based Object
Detection [5.816506391882502]
本稿では,マルチモーダルセンシングストリームを適応的に融合させるGLA(Global-Local Attention)フレームワークを提案する。
具体的には、GLAは、ローカルアテンションネットワークを介してアーリーステージフュージョンと、グローバルアテンションネットワークを介してレイトステージフュージョンを統合し、ローカル情報とグローバル情報の両方を扱う。
実験により, 提案したGLAの性能は, 最先端核融合法と比較して優れていた。
論文 参考訳(メタデータ) (2022-04-22T16:32:34Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Fusion Detection via Distance-Decay IoU and weighted Dempster-Shafer
Evidence Theory [0.0]
高速なマルチソース核融合検出フレームワークが提案されている。
ターゲットの形状特性を符号化するために、ユニオン上の新しい距離デカイ交叉を用いる。
重み付けされたデンプスター・シェーファーのエビデンス理論は、光学と合成開口レーダ検出を組み合わせたものである。
論文 参考訳(メタデータ) (2021-12-06T13:46:39Z) - Lidar Light Scattering Augmentation (LISA): Physics-based Simulation of
Adverse Weather Conditions for 3D Object Detection [60.89616629421904]
ライダーベースの物体検出器は、自動運転車のような自律ナビゲーションシステムにおいて、3D知覚パイプラインの重要な部分である。
降雨、雪、霧などの悪天候に敏感で、信号-雑音比(SNR)と信号-背景比(SBR)が低下している。
論文 参考訳(メタデータ) (2021-07-14T21:10:47Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。