論文の概要: FD2-Net: Frequency-Driven Feature Decomposition Network for Infrared-Visible Object Detection
- arxiv url: http://arxiv.org/abs/2412.09258v1
- Date: Thu, 12 Dec 2024 13:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:26.077018
- Title: FD2-Net: Frequency-Driven Feature Decomposition Network for Infrared-Visible Object Detection
- Title(参考訳): FD2-Net:赤外線可視物体検出のための周波数駆動型特徴分解ネットワーク
- Authors: Ke Li, Di Wang, Zhangyuan Hu, Shaofeng Li, Weiping Ni, Lin Zhao, Quan Wang,
- Abstract要約: 赤外線可視物体検出(IVOD)は、赤外線と可視画像の相補的な情報を活用する。
既存の手法は相補的な情報の周波数特性を無視することが多い。
本稿では、FD2-Netと呼ばれる新しい周波数駆動型IVOD特徴分解ネットワークについて紹介する。
- 参考スコア(独自算出の注目度): 16.80713499383237
- License:
- Abstract: Infrared-visible object detection (IVOD) seeks to harness the complementary information in infrared and visible images, thereby enhancing the performance of detectors in complex environments. However, existing methods often neglect the frequency characteristics of complementary information, such as the abundant high-frequency details in visible images and the valuable low-frequency thermal information in infrared images, thus constraining detection performance. To solve this problem, we introduce a novel Frequency-Driven Feature Decomposition Network for IVOD, called FD2-Net, which effectively captures the unique frequency representations of complementary information across multimodal visual spaces. Specifically, we propose a feature decomposition encoder, wherein the high-frequency unit (HFU) utilizes discrete cosine transform to capture representative high-frequency features, while the low-frequency unit (LFU) employs dynamic receptive fields to model the multi-scale context of diverse objects. Next, we adopt a parameter-free complementary strengths strategy to enhance multimodal features through seamless inter-frequency recoupling. Furthermore, we innovatively design a multimodal reconstruction mechanism that recovers image details lost during feature extraction, further leveraging the complementary information from infrared and visible images to enhance overall representational capacity. Extensive experiments demonstrate that FD2-Net outperforms state-of-the-art (SOTA) models across various IVOD benchmarks, i.e. LLVIP (96.2% mAP), FLIR (82.9% mAP), and M3FD (83.5% mAP).
- Abstract(参考訳): 赤外線可視物体検出(IVOD)は、赤外線と可視画像の相補的な情報を活用し、複雑な環境における検出器の性能を向上させる。
しかし、既存の方法では、可視画像における高周波数の詳細や、赤外線画像における貴重な低周波熱情報などの相補的情報の周波数特性を無視することが多く、検出性能が制限される。
この問題を解決するために、FD2-Netと呼ばれる新しいIVODのための周波数駆動型特徴分解ネットワークを導入し、マルチモーダル視覚空間にまたがる相補的情報のユニークな周波数表現を効果的に取得する。
具体的には、高周波数ユニット(HFU)が離散コサイン変換を用いて代表周波数の特徴を捉え、低周波数ユニット(LFU)が動的受容場を用いて多様なオブジェクトのマルチスケールコンテキストをモデル化する特徴分解エンコーダを提案する。
次に、パラメータフリー補間強度戦略を採用し、シームレスな周波数間再結合によりマルチモーダル特徴を向上する。
さらに、特徴抽出時に失われた画像の詳細を復元する多モード再構成機構を革新的に設計し、さらに赤外線と可視画像からの補完情報を活用して、全体的な表現能力を高める。
FD2-Netは様々なIVODベンチマーク、すなわちLLVIP (96.2% mAP)、FLIR (82.9% mAP)、M3FD (83.5% mAP)において、最先端(SOTA)モデルより優れていることを示した。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - SFDFusion: An Efficient Spatial-Frequency Domain Fusion Network for Infrared and Visible Image Fusion [11.46957526079837]
赤外線と可視画像の融合は、目立ったターゲットと豊かなテクスチャの詳細を持つ融合画像を生成することを目的としている。
本稿では、赤外・可視画像融合のための効率的な空間周波数領域融合ネットワークを提案する。
本手法は,様々な融合計測値と視覚効果に有意な利点を有する融合画像を生成する。
論文 参考訳(メタデータ) (2024-10-30T09:17:23Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Fusion of Infrared and Visible Images based on Spatial-Channel
Attentional Mechanism [3.388001684915793]
Infrared and visible image fusion (IVIF) の革新的アプローチであるAMFusionNetを提案する。
可視光源からのテクスチャ特徴と赤外線画像からの熱的詳細を同化することにより,包括的情報に富んだ画像を生成する。
提案手法は, 品質と量の観点から, 最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-25T21:05:11Z) - Complementary Frequency-Varying Awareness Network for Open-Set
Fine-Grained Image Recognition [14.450381668547259]
オープンセット画像認識はコンピュータビジョンにおける課題である。
本稿では,高周波情報と低周波情報の両方をよりよく把握できる補完周波数変化認識ネットワークを提案する。
CFANに基づいて,CFAN-OSFGRと呼ばれるオープンセットのきめ細かい画像認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T08:15:36Z) - A Scale-Arbitrary Image Super-Resolution Network Using Frequency-domain
Information [42.55177009667711]
画像超解像(SR)は、低分解能(LR)画像において失われた高周波情報を復元する技術である。
本稿では、周波数領域における画像の特徴を考察し、新しいスケール・アービタリー画像SRネットワークを設計する。
論文 参考訳(メタデータ) (2022-12-08T15:10:49Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。
本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。
低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文 参考訳(メタデータ) (2021-08-03T12:26:33Z) - Thermal Image Super-Resolution Using Second-Order Channel Attention with
Varying Receptive Fields [4.991042925292453]
熱画像の効率よく再構成するシステムを提案する。
熱画像の復元は、安全、捜索、救助、軍事活動を含む用途に不可欠である。
論文 参考訳(メタデータ) (2021-07-30T22:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。