論文の概要: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection
- arxiv url: http://arxiv.org/abs/2411.18409v2
- Date: Mon, 10 Feb 2025 02:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:22.745687
- Title: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection
- Title(参考訳): RGBと熱塩性物体検出のためのディープフーリエ組込みネットワーク
- Authors: Pengfei Lyu, Pak-Hei Yeung, Xiaosheng Yu, Chengdong Wu, Jagath C. Rajapakse,
- Abstract要約: 深層学習は、RGB画像と熱画像(RGB-T画像)を併用したサルエント物体検出(SOD)を大幅に改善した。
既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
本稿では,DFENet(Deep Fourier-Embedded Network)という,純粋なフーリエ変換モデルを提案する。
- 参考スコア(独自算出の注目度): 8.607385112274882
- License:
- Abstract: The rapid development of deep learning has significantly improved salient object detection (SOD) combining both RGB and thermal (RGB-T) images. However, existing deep learning-based RGB-T SOD models suffer from two major limitations. First, Transformer-based models with quadratic complexity are computationally expensive and memory-intensive, limiting their application in high-resolution bi-modal feature fusion. Second, even when these models converge to an optimal solution, there remains a frequency gap between the prediction and ground-truth. To overcome these limitations, we propose a purely Fourier transform-based model, namely Deep Fourier-Embedded Network (DFENet), for accurate RGB-T SOD. To address the computational complexity when dealing with high-resolution images, we leverage the efficiency of fast Fourier transform with linear complexity to design three key components: (1) the Modal-coordinated Perception Attention, which fuses RGB and thermal modalities with enhanced multi-dimensional representation; (2) the Frequency-decomposed Edge-aware Block, which clarifies object edges by deeply decomposing and enhancing frequency components of low-level features; and (3) the Fourier Residual Channel Attention Block, which prioritizes high-frequency information while aligning channel-wise global relationships. To mitigate the frequency gap, we propose Co-focus Frequency Loss, which dynamically weights hard frequencies during edge frequency reconstruction by cross-referencing bi-modal edge information in the Fourier domain. Extensive experiments on four RGB-T SOD benchmark datasets demonstrate that DFENet outperforms fifteen existing state-of-the-art RGB-T SOD models. Comprehensive ablation studies further validate the value and effectiveness of our newly proposed components. The code is available at https://github.com/JoshuaLPF/DFENet.
- Abstract(参考訳): 深層学習の急速な発展により、RGBと熱(RGB-T)の両方のイメージを併用したサルエント物体検出(SOD)が大幅に改善された。
しかし、既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
第一に、2次複雑性を持つTransformerベースのモデルは計算コストが高く、メモリ集約的であり、高分解能双モード特徴融合におけるそれらの応用を制限する。
第二に、これらのモデルが最適解に収束しても、予測と地道の間には周波数ギャップが残っている。
これらの制約を克服するため、我々は、DFENet(Deep Fourier-Embedded Network)と呼ばれる純粋にフーリエ変換に基づくモデルを提案し、正確なRGB-T SODを提案する。
高解像度画像を扱う際の計算複雑性に対処するため,(1)RGBと熱モダリティを融合したモードコーディネート知覚注意(Modal-Coordinated Perception Attention),(2)低レベル特徴の周波数成分を深く分解・拡張することによってオブジェクトエッジを明確化するエッジ認識ブロック(Fourier Residual Channel Attention Block),(3)チャネルワイドなグローバルな関係を整列させながら高周波情報を優先するFourier Residual Channel Attention Block(Fourier Residual Channel Attention Block)という3つの重要なコンポーネントを設計するために,高速フーリエ変換の効率を利用する。
周波数ギャップを軽減するために、フーリエ領域におけるバイモーダルエッジ情報の相互参照により、エッジ周波数再構成中にハード周波数を動的に重み付けするコフォーカス周波数損失を提案する。
4つのRGB-T SODベンチマークデータセットに対する大規模な実験により、DFENetは15の既存のRGB-T SODモデルより優れていることが示された。
包括的アブレーション研究は、新たに提案したコンポーネントの価値と有効性をさらに検証する。
コードはhttps://github.com/JoshuaLPF/DFENetで公開されている。
関連論文リスト
- Wavelet-based Mamba with Fourier Adjustment for Low-light Image Enhancement [26.13172849144202]
We propose a novel Wavelet-based Mamba with Fourier Adjustment model called WalMaFa。
WMBはDecoderで採用され、FFABはLatent-Decoder構造で採用されている。
実験により,提案したWalMaFaは,計算資源が少なく,高速で,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-27T02:48:28Z) - MDNF: Multi-Diffusion-Nets for Neural Fields on Meshes [5.284425534494986]
本稿では,空間領域と周波数領域にまたがる多分解能を持つトライアングルメッシュ上でのニューラルフィールドを表現する新しいフレームワークを提案する。
ニューラルフーリエフィルタバンク(NFFB)にインスパイアされた我々のアーキテクチャは、より微細な分解能レベルと高い周波数帯域を関連付けることによって周波数領域と周波数領域を分解する。
本稿では, 合成RGB関数, UVテクスチャ座標, 正規化など, 多様なニューラルネットワークへの応用を通じて, 本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-04T19:08:13Z) - Spatial-frequency Dual-Domain Feature Fusion Network for Low-Light Remote Sensing Image Enhancement [49.15531684596958]
低照度リモートセンシング画像強調のためのDFFN(Dual-Domain Feature Fusion Network)を提案する。
第1フェーズは振幅情報を学習して画像輝度を復元し、第2フェーズは位相情報を学習して詳細を洗練させる。
我々は、現在の暗光リモートセンシング画像強調におけるデータセットの欠如に対応するために、2つの暗光リモートセンシングデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-26T13:21:31Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。
本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文 参考訳(メタデータ) (2024-01-04T08:58:25Z) - FourLLIE: Boosting Low-Light Image Enhancement by Fourier Frequency
Information [19.478293277978935]
2段階フーリエ型低光画像強調(LLIE)ネットワーク(FourLLIE)を提案する。
第1段階では、フーリエ空間の振幅変換マップを推定することにより、低照度画像の明るさを改善する。
第2段階では、グローバルフーリエ周波数と局所空間情報を統合するための事前情報を提供するために、SNR(Signal-to-Noise-Ratio)マップを導入する。
論文 参考訳(メタデータ) (2023-08-06T06:14:14Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。