論文の概要: WaveMamba: Wavelet-Driven Mamba Fusion for RGB-Infrared Object Detection
- arxiv url: http://arxiv.org/abs/2507.18173v1
- Date: Thu, 24 Jul 2025 08:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.22608
- Title: WaveMamba: Wavelet-Driven Mamba Fusion for RGB-Infrared Object Detection
- Title(参考訳): WaveMamba: RGB赤外線物体検出のためのウェーブレット駆動型マンバ核融合
- Authors: Haodong Zhu, Wenhao Dong, Linlin Yang, Hong Li, Yuguang Yang, Yangyang Ren, Qingcheng Zhu, Zichao Feng, Changbai Li, Shaohui Lin, Runqi Wang, Xiaoyan Luo, Baochang Zhang,
- Abstract要約: 可視光(RGB)と赤外線(IR)画像の相補的特性を活用することは、物体検出を改善する重要な可能性をもたらす。
本稿では,RGB と IR の固有かつ相補的な周波数特性を効率的に統合する相互モード融合法 WaveMamba を提案する。
Inverse Discrete Wavelet Transform (IDWT) を組み込んだ改良された検出ヘッドも提案され、情報損失を低減し、最終的な検出結果が得られた。
- 参考スコア(独自算出の注目度): 25.496562034914408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the complementary characteristics of visible (RGB) and infrared (IR) imagery offers significant potential for improving object detection. In this paper, we propose WaveMamba, a cross-modality fusion method that efficiently integrates the unique and complementary frequency features of RGB and IR decomposed by Discrete Wavelet Transform (DWT). An improved detection head incorporating the Inverse Discrete Wavelet Transform (IDWT) is also proposed to reduce information loss and produce the final detection results. The core of our approach is the introduction of WaveMamba Fusion Block (WMFB), which facilitates comprehensive fusion across low-/high-frequency sub-bands. Within WMFB, the Low-frequency Mamba Fusion Block (LMFB), built upon the Mamba framework, first performs initial low-frequency feature fusion with channel swapping, followed by deep fusion with an advanced gated attention mechanism for enhanced integration. High-frequency features are enhanced using a strategy that applies an ``absolute maximum" fusion approach. These advancements lead to significant performance gains, with our method surpassing state-of-the-art approaches and achieving average mAP improvements of 4.5% on four benchmarks.
- Abstract(参考訳): 可視光(RGB)と赤外線(IR)画像の相補的特性を活用することは、物体検出を改善する重要な可能性をもたらす。
本稿では、離散ウェーブレット変換(DWT)により分解されたRGBとIRの固有かつ相補的な周波数特徴を効率的に統合する、相互モード融合法であるWaveMambaを提案する。
Inverse Discrete Wavelet Transform (IDWT) を組み込んだ改良された検出ヘッドも提案され、情報損失を低減し、最終的な検出結果が得られた。
提案手法の核となるのはWaveMamba Fusion Block (WMFB) の導入である。
WMFB内では、Mambaフレームワーク上に構築された低周波Mamba Fusion Block (LMFB) が、最初にチャネルスワッピングによる低周波特徴核融合を行い、その後、拡張統合のための高度なゲートアテンション機構を備えた深部融合を行う。
高周波機能は ` `absolute maximum" 融合アプローチを適用する戦略によって強化される。
これらの進歩は、最先端のアプローチを超越し、4つのベンチマークで平均4.5%のmAP改善を実現し、大幅なパフォーマンス向上につながった。
関連論文リスト
- Multispectral Detection Transformer with Infrared-Centric Feature Fusion [8.762314897895175]
Infrared-Centric Fusion (IC-Fusion) は、軽量でモダリティに配慮したセンサー融合法である。
IC-Fusionは、補完的なRGBセマンティックコンテキストを効果的に統合しながら、赤外線機能を優先する。
FLIRおよびLLVIPベンチマークの実験は、我々のIR中心核融合戦略の有効性と効率性を実証している。
論文 参考訳(メタデータ) (2025-05-21T05:44:14Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Exploring State Space Model in Wavelet Domain: An Infrared and Visible Image Fusion Network via Wavelet Transform and State Space Model [8.392891463947661]
本研究では、ウェーブレット変換と状態空間モデル(SSM)を統合するウェーブレット・マンバを提案する。
Wavelet-SSMモジュールは、ウェーブレットベースの周波数領域の特徴抽出とSSMによるグローバル情報抽出を組み込む。
提案手法は,現在の最先端手法と比較して,視覚的に魅力的な結果と優れた性能を両立させる。
論文 参考訳(メタデータ) (2025-03-24T06:25:44Z) - Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection [8.607385112274882]
深層学習は、RGB画像と熱画像(RGB-T画像)を併用したサルエント物体検出(SOD)を大幅に改善した。
既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
本稿では,DFENet(Deep Fourier-Embedded Network)という,純粋なフーリエ変換モデルを提案する。
論文 参考訳(メタデータ) (2024-11-27T14:55:16Z) - Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution [15.610136214020947]
暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。
既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。
本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
論文 参考訳(メタデータ) (2024-11-10T12:21:14Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Frequency Domain Nuances Mining for Visible-Infrared Person
Re-identification [75.87443138635432]
既存の手法は主に、識別周波数情報を無視しながら空間情報を利用する。
本稿では,周波数領域情報を対象とした周波数領域Nuances Mining(FDNM)手法を提案する。
本手法は,SYSU-MM01データセットにおいて,Ran-1精度が5.2%,mAPが5.8%向上する。
論文 参考訳(メタデータ) (2024-01-04T09:19:54Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。