論文の概要: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection
- arxiv url: http://arxiv.org/abs/2411.18409v2
- Date: Mon, 10 Feb 2025 02:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:22.745687
- Title: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection
- Title(参考訳): RGBと熱塩性物体検出のためのディープフーリエ組込みネットワーク
- Authors: Pengfei Lyu, Pak-Hei Yeung, Xiaosheng Yu, Chengdong Wu, Jagath C. Rajapakse,
- Abstract要約: 深層学習は、RGB画像と熱画像(RGB-T画像)を併用したサルエント物体検出(SOD)を大幅に改善した。
既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
本稿では,DFENet(Deep Fourier-Embedded Network)という,純粋なフーリエ変換モデルを提案する。
- 参考スコア(独自算出の注目度): 8.607385112274882
- License:
- Abstract: The rapid development of deep learning has significantly improved salient object detection (SOD) combining both RGB and thermal (RGB-T) images. However, existing deep learning-based RGB-T SOD models suffer from two major limitations. First, Transformer-based models with quadratic complexity are computationally expensive and memory-intensive, limiting their application in high-resolution bi-modal feature fusion. Second, even when these models converge to an optimal solution, there remains a frequency gap between the prediction and ground-truth. To overcome these limitations, we propose a purely Fourier transform-based model, namely Deep Fourier-Embedded Network (DFENet), for accurate RGB-T SOD. To address the computational complexity when dealing with high-resolution images, we leverage the efficiency of fast Fourier transform with linear complexity to design three key components: (1) the Modal-coordinated Perception Attention, which fuses RGB and thermal modalities with enhanced multi-dimensional representation; (2) the Frequency-decomposed Edge-aware Block, which clarifies object edges by deeply decomposing and enhancing frequency components of low-level features; and (3) the Fourier Residual Channel Attention Block, which prioritizes high-frequency information while aligning channel-wise global relationships. To mitigate the frequency gap, we propose Co-focus Frequency Loss, which dynamically weights hard frequencies during edge frequency reconstruction by cross-referencing bi-modal edge information in the Fourier domain. Extensive experiments on four RGB-T SOD benchmark datasets demonstrate that DFENet outperforms fifteen existing state-of-the-art RGB-T SOD models. Comprehensive ablation studies further validate the value and effectiveness of our newly proposed components. The code is available at https://github.com/JoshuaLPF/DFENet.
- Abstract(参考訳): 深層学習の急速な発展により、RGBと熱(RGB-T)の両方のイメージを併用したサルエント物体検出(SOD)が大幅に改善された。
しかし、既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
第一に、2次複雑性を持つTransformerベースのモデルは計算コストが高く、メモリ集約的であり、高分解能双モード特徴融合におけるそれらの応用を制限する。
第二に、これらのモデルが最適解に収束しても、予測と地道の間には周波数ギャップが残っている。
これらの制約を克服するため、我々は、DFENet(Deep Fourier-Embedded Network)と呼ばれる純粋にフーリエ変換に基づくモデルを提案し、正確なRGB-T SODを提案する。
高解像度画像を扱う際の計算複雑性に対処するため,(1)RGBと熱モダリティを融合したモードコーディネート知覚注意(Modal-Coordinated Perception Attention),(2)低レベル特徴の周波数成分を深く分解・拡張することによってオブジェクトエッジを明確化するエッジ認識ブロック(Fourier Residual Channel Attention Block),(3)チャネルワイドなグローバルな関係を整列させながら高周波情報を優先するFourier Residual Channel Attention Block(Fourier Residual Channel Attention Block)という3つの重要なコンポーネントを設計するために,高速フーリエ変換の効率を利用する。
周波数ギャップを軽減するために、フーリエ領域におけるバイモーダルエッジ情報の相互参照により、エッジ周波数再構成中にハード周波数を動的に重み付けするコフォーカス周波数損失を提案する。
4つのRGB-T SODベンチマークデータセットに対する大規模な実験により、DFENetは15の既存のRGB-T SODモデルより優れていることが示された。
包括的アブレーション研究は、新たに提案したコンポーネントの価値と有効性をさらに検証する。
コードはhttps://github.com/JoshuaLPF/DFENetで公開されている。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - MDNF: Multi-Diffusion-Nets for Neural Fields on Meshes [5.284425534494986]
本稿では,空間領域と周波数領域にまたがる多分解能を持つトライアングルメッシュ上でのニューラルフィールドを表現する新しいフレームワークを提案する。
ニューラルフーリエフィルタバンク(NFFB)にインスパイアされた我々のアーキテクチャは、より微細な分解能レベルと高い周波数帯域を関連付けることによって周波数領域と周波数領域を分解する。
本稿では, 合成RGB関数, UVテクスチャ座標, 正規化など, 多様なニューラルネットワークへの応用を通じて, 本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-04T19:08:13Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。