論文の概要: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection
- arxiv url: http://arxiv.org/abs/2411.18409v3
- Date: Tue, 04 Nov 2025 07:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:25.8555
- Title: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection
- Title(参考訳): RGBと熱塩性物体検出のためのディープフーリエ組込みネットワーク
- Authors: Pengfei Lyu, Xiaosheng Yu, Pak-Hei Yeung, Chengdong Wu, Jagath C. Rajapakse,
- Abstract要約: 本稿では,正確なRGB-T SODのための純粋フーリエ変換モデルであるDeep Fourier-embedded Network (FreqSal)を提案する。
具体的には,Fast Fourier Transformの効率を線形複雑化して3つの重要なコンポーネントを設計する。
10のバイモーダルSODベンチマークデータセットに対する実験では、FreqSalが既存の29のバイモーダルSODモデルより優れていることが示されている。
- 参考スコア(独自算出の注目度): 15.470610918037243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of deep learning has significantly improved salient object detection (SOD) combining both RGB and thermal (RGB-T) images. However, existing Transformer-based RGB-T SOD models with quadratic complexity are memory-intensive, limiting their application in high-resolution bimodal feature fusion. To overcome this limitation, we propose a purely Fourier Transform-based model, namely Deep Fourier-embedded Network (FreqSal), for accurate RGB-T SOD. Specifically, we leverage the efficiency of Fast Fourier Transform with linear complexity to design three key components: (1) To fuse RGB and thermal modalities, we propose Modal-coordinated Perception Attention, which aligns and enhances bimodal Fourier representation in multiple dimensions; (2) To clarify object edges and suppress noise, we design Frequency-decomposed Edge-aware Block, which deeply decomposes and filters Fourier components of low-level features; (3) To accurately decode features, we propose Fourier Residual Channel Attention Block, which prioritizes high-frequency information while aligning channel-wise global relationships. Additionally, even when converged, existing deep learning-based SOD models' predictions still exhibit frequency gaps relative to ground-truth. To address this problem, we propose Co-focus Frequency Loss, which dynamically weights hard frequencies during edge frequency reconstruction by cross-referencing bimodal edge information in the Fourier domain. Extensive experiments on ten bimodal SOD benchmark datasets demonstrate that FreqSal outperforms twenty-nine existing state-of-the-art bimodal SOD models. Comprehensive ablation studies further validate the value and effectiveness of our newly proposed components. The code is available at https://github.com/JoshuaLPF/FreqSal.
- Abstract(参考訳): 深層学習の急速な発展により、RGBと熱(RGB-T)の両方のイメージを併用したサルエント物体検出(SOD)が大幅に改善された。
しかし、2次複雑性を持つ既存のTransformerベースのRGB-T SODモデルはメモリ集約的であり、高分解能バイモーダルな特徴融合での応用を制限している。
この制限を克服するために、我々は純粋にフーリエ変換に基づくモデルであるDeep Fourier-embedded Network (FreqSal)を提案し、正確なRGB-T SODを提案する。
具体的には,RGBと熱モダリティを融合させるため,複数の次元でバイモーダル・フーリエ表現を調整・強化するモーダル・コーディネート・パーセプション・アテンション (Modal-Coordinated Perception Attention) ,オブジェクトエッジを明確にし,ノイズを抑えるために,低レベルの特徴を深く分解・フィルタリングする周波数分解エッジ・アウェア・ブロック (Fequency-Aware Block) ,低レベルの特徴のフーリエ・コンポーネントを正確にデコードするために,チャネルワイド・グローバルな関係を整列させながら高周波情報を優先するフーリエ・チャンネル・アテンション・ブロック (Fourier Residual Channel Attention Block) を提案する。
さらに、収束しても、既存の深層学習に基づくSODモデルの予測は、地道に対する周波数ギャップを示す。
この問題を解決するために、フーリエ領域におけるバイモーダルエッジ情報の相互参照により、エッジ周波数再構成中のハード周波数を動的に重み付けするコフォーカス周波数損失を提案する。
10のバイモーダルSODベンチマークデータセットに対する大規模な実験は、FreqSalが既存の29のバイモーダルSODモデルより優れていることを示している。
包括的アブレーション研究は、新たに提案したコンポーネントの価値と有効性をさらに検証する。
コードはhttps://github.com/JoshuaLPF/FreqSal.comで入手できる。
関連論文リスト
- A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency [9.668149257194887]
周波数収束不整合を解消するためのウェーブレットベースのステレオマッチングフレームワーク(ウェーブレット・ステレオ)を提案する。
高周波数成分と低周波成分を別々に処理することで、我々は、エッジにおける高周波情報とスムーズな領域における低周波情報を同時に洗練することができる。
論文 参考訳(メタデータ) (2025-05-23T15:28:03Z) - PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification [30.563079264213112]
フーリエ領域における位相(モダリティ共有)と振幅(モダリティ固有)を分離する周波数対応フレームワークである位相振幅デカップリング(PAD)を提案する。
PADは, 位相スペクトル補正 (PSC) と位相差補正 (ASF) の2つの主要成分から構成される。
我々の研究は、リモートセンシングにおける物理を意識したマルチモーダル融合の新しいパラダイムを確立する
論文 参考訳(メタデータ) (2025-04-27T07:21:42Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Wavelet-based Mamba with Fourier Adjustment for Low-light Image Enhancement [26.13172849144202]
We propose a novel Wavelet-based Mamba with Fourier Adjustment model called WalMaFa。
WMBはDecoderで採用され、FFABはLatent-Decoder構造で採用されている。
実験により,提案したWalMaFaは,計算資源が少なく,高速で,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-27T02:48:28Z) - MDNF: Multi-Diffusion-Nets for Neural Fields on Meshes [5.284425534494986]
本稿では,空間領域と周波数領域にまたがる多分解能を持つトライアングルメッシュ上でのニューラルフィールドを表現する新しいフレームワークを提案する。
ニューラルフーリエフィルタバンク(NFFB)にインスパイアされた我々のアーキテクチャは、より微細な分解能レベルと高い周波数帯域を関連付けることによって周波数領域と周波数領域を分解する。
本稿では, 合成RGB関数, UVテクスチャ座標, 正規化など, 多様なニューラルネットワークへの応用を通じて, 本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-04T19:08:13Z) - Spatial-frequency Dual-Domain Feature Fusion Network for Low-Light Remote Sensing Image Enhancement [49.15531684596958]
低照度リモートセンシング画像強調のためのDFFN(Dual-Domain Feature Fusion Network)を提案する。
第1フェーズは振幅情報を学習して画像輝度を復元し、第2フェーズは位相情報を学習して詳細を洗練させる。
我々は、現在の暗光リモートセンシング画像強調におけるデータセットの欠如に対応するために、2つの暗光リモートセンシングデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-26T13:21:31Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。
本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文 参考訳(メタデータ) (2024-01-04T08:58:25Z) - FourLLIE: Boosting Low-Light Image Enhancement by Fourier Frequency
Information [19.478293277978935]
2段階フーリエ型低光画像強調(LLIE)ネットワーク(FourLLIE)を提案する。
第1段階では、フーリエ空間の振幅変換マップを推定することにより、低照度画像の明るさを改善する。
第2段階では、グローバルフーリエ周波数と局所空間情報を統合するための事前情報を提供するために、SNR(Signal-to-Noise-Ratio)マップを導入する。
論文 参考訳(メタデータ) (2023-08-06T06:14:14Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。