論文の概要: FreDFT: Frequency Domain Fusion Transformer for Visible-Infrared Object Detection
- arxiv url: http://arxiv.org/abs/2511.10046v1
- Date: Fri, 14 Nov 2025 01:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.660821
- Title: FreDFT: Frequency Domain Fusion Transformer for Visible-Infrared Object Detection
- Title(参考訳): FreDFT:可視赤外物体検出のための周波数領域融合変換器
- Authors: Wencong Wu, Xiuwei Zhang, Hanlin Yin, Shun Dai, Hongxi Zhang, Yanning Zhang,
- Abstract要約: 可視赤外物体検出のための周波数領域融合変換器FreDFTを提案する。
提案手法は、変調と周波数フィードフォワード層の間の相補的な情報をマイニングするために、新しいマルチモーダル周波数アテンション(MFDA)を用いる。
提案するFreDFTは,他の最先端手法と比較して,複数の公開データセット上で優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 32.27664742588076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-infrared object detection has gained sufficient attention due to its detection performance in low light, fog, and rain conditions. However, visible and infrared modalities captured by different sensors exist the information imbalance problem in complex scenarios, which can cause inadequate cross-modal fusion, resulting in degraded detection performance. \textcolor{red}{Furthermore, most existing methods use transformers in the spatial domain to capture complementary features, ignoring the advantages of developing frequency domain transformers to mine complementary information.} To solve these weaknesses, we propose a frequency domain fusion transformer, called FreDFT, for visible-infrared object detection. The proposed approach employs a novel multimodal frequency domain attention (MFDA) to mine complementary information between modalities and a frequency domain feed-forward layer (FDFFL) via a mixed-scale frequency feature fusion strategy is designed to better enhance multimodal features. To eliminate the imbalance of multimodal information, a cross-modal global modeling module (CGMM) is constructed to perform pixel-wise inter-modal feature interaction in a spatial and channel manner. Moreover, a local feature enhancement module (LFEM) is developed to strengthen multimodal local feature representation and promote multimodal feature fusion by using various convolution layers and applying a channel shuffle. Extensive experimental results have verified that our proposed FreDFT achieves excellent performance on multiple public datasets compared with other state-of-the-art methods. The code of our FreDFT is linked at https://github.com/WenCongWu/FreDFT.
- Abstract(参考訳): 可視光赤外線による物体検出は, 低光, 霧, 降雨条件における検出性能から十分に注目されている。
しかし、異なるセンサーが捉えた可視・赤外線のモダリティは、複雑なシナリオにおける情報不均衡の問題が存在し、不適切なクロスモーダル融合を引き起こし、検出性能が低下する可能性がある。
さらに、既存のほとんどのメソッドは、空間領域のトランスフォーマーを使用して補完的な特徴をキャプチャし、補的な情報をマイニングするために周波数領域トランスフォーマーを開発するという利点を無視している。
この弱点を解決するために,FreDFTと呼ばれる周波数領域融合変換器を提案する。
提案手法は,MFDA(Multimodal frequency domain attention)を用いて,マルチモーダル特徴量向上のための混合周波数特徴融合戦略により,モーダルティと周波数領域フィードフォワード層(FDFFL)の相補的な情報を抽出する。
マルチモーダル情報の不均衡を回避するため、クロスモーダル・グローバル・モデリング・モジュール(CGMM)を構築し、空間的・チャネル的にピクセルワイド・モーダル間特徴相互作用を行う。
さらに,マルチモーダルな局所特徴表現を強化し,様々な畳み込み層を用いてチャネルシャッフルを適用することでマルチモーダルな特徴融合を促進するために,ローカル特徴拡張モジュール(LFEM)を開発した。
提案したFreDFTは,他の最先端手法と比較して,複数の公開データセット上で優れた性能を発揮することを確認した。
FreDFTのコードはhttps://github.com/WenCongWu/FreDFT.comにリンクされている。
関連論文リスト
- SFFR: Spatial-Frequency Feature Reconstruction for Multispectral Aerial Object Detection [12.521255528136278]
本研究では,新しい空間周波数特徴再構成法 (SFFR) を提案する。
特徴融合の前に空間領域と周波数領域の相補表現を再構成する。
提案するFCEKANモジュールとMSGKANモジュールは相補的であり,それぞれの周波数と空間的意味的特徴を効果的に捉えることができることを示す。
論文 参考訳(メタデータ) (2025-11-09T09:34:10Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - SFDFusion: An Efficient Spatial-Frequency Domain Fusion Network for Infrared and Visible Image Fusion [11.46957526079837]
赤外線と可視画像の融合は、目立ったターゲットと豊かなテクスチャの詳細を持つ融合画像を生成することを目的としている。
本稿では、赤外・可視画像融合のための効率的な空間周波数領域融合ネットワークを提案する。
本手法は,様々な融合計測値と視覚効果に有意な利点を有する融合画像を生成する。
論文 参考訳(メタデータ) (2024-10-30T09:17:23Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。