論文の概要: Frequency-Spatial Entanglement Learning for Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2409.01686v1
- Date: Tue, 3 Sep 2024 07:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:30:20.815701
- Title: Frequency-Spatial Entanglement Learning for Camouflaged Object Detection
- Title(参考訳): カモフラージュ物体検出のための周波数-空間絡み合い学習
- Authors: Yanguang Sun, Chunyan Xu, Jian Yang, Hanyu Xuan, Lei Luo,
- Abstract要約: 既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
- 参考スコア(独自算出の注目度): 34.426297468968485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camouflaged object detection has attracted a lot of attention in computer vision. The main challenge lies in the high degree of similarity between camouflaged objects and their surroundings in the spatial domain, making identification difficult. Existing methods attempt to reduce the impact of pixel similarity by maximizing the distinguishing ability of spatial features with complicated design, but often ignore the sensitivity and locality of features in the spatial domain, leading to sub-optimal results. In this paper, we propose a new approach to address this issue by jointly exploring the representation in the frequency and spatial domains, introducing the Frequency-Spatial Entanglement Learning (FSEL) method. This method consists of a series of well-designed Entanglement Transformer Blocks (ETB) for representation learning, a Joint Domain Perception Module for semantic enhancement, and a Dual-domain Reverse Parser for feature integration in the frequency and spatial domains. Specifically, the ETB utilizes frequency self-attention to effectively characterize the relationship between different frequency bands, while the entanglement feed-forward network facilitates information interaction between features of different domains through entanglement learning. Our extensive experiments demonstrate the superiority of our FSEL over 21 state-of-the-art methods, through comprehensive quantitative and qualitative comparisons in three widely-used datasets. The source code is available at: https://github.com/CSYSI/FSEL.
- Abstract(参考訳): カモフラージュされた物体検出はコンピュータビジョンにおいて多くの注目を集めている。
主な課題は、カモフラージュされた物体と空間領域の周囲との高度な類似性であり、識別が困難である。
既存の手法は、複雑な設計で空間特徴の識別能力を最大化することで画素類似性の影響を減らそうとしているが、空間領域における特徴の感度と局所性を無視することがしばしばあり、亜最適結果をもたらす。
本稿では、周波数領域と空間領域の表現を共同で探索し、周波数空間の絡み合い学習(FSEL)手法を導入することにより、この問題に対処する新しいアプローチを提案する。
本手法は,表現学習のためのETB(Entanglement Transformer Blocks)と,意味的拡張のためのジョイントドメイン知覚モジュールと,周波数領域と空間領域の機能統合のためのデュアルドメイン逆パーサから構成される。
具体的には、周波数自己アテンションを利用して、異なる周波数帯域間の関係を効果的に特徴づける一方、絡み合いフィードフォワードネットワークは、絡み合い学習を通じて異なるドメインの特徴間の情報相互作用を促進する。
広範囲な実験により、広く使われている3つのデータセットの総合的な量的および定性的な比較を通じて、21の最先端手法よりもFSELの方が優れていることを示した。
ソースコードは、https://github.com/CSYSI/FSEL.comで入手できる。
関連論文リスト
- Triple-domain Feature Learning with Frequency-aware Memory Enhancement for Moving Infrared Small Target Detection [12.641645684148136]
赤外線小ターゲット検出の移動は、小さなターゲットサイズと背景とのコントラストが低いため、大きな課題となる。
本稿では,空間時間領域に周波数認識メモリを付加した新しいトリプルドメイン戦略(トリド)を提案する。
人間の視覚システムにインスパイアされた記憶強調は,映像フレーム間の空間的関係を捉えることを目的としている。
論文 参考訳(メタデータ) (2024-06-11T05:21:30Z) - DiffuBox: Refining 3D Object Detection with Point Diffusion [74.01759893280774]
本研究では,3次元物体の検出と局所化を確保するために,新しい拡散型ボックス精細化手法を提案する。
提案手法は,様々なドメイン適応設定下で評価し,その結果,異なるデータセット間での大幅な改善が示された。
論文 参考訳(メタデータ) (2024-05-25T03:14:55Z) - SFFNet: A Wavelet-Based Spatial and Frequency Domain Fusion Network for Remote Sensing Segmentation [9.22384870426709]
本稿ではSFFNet(Spatial and Frequency Domain Fusion Network)フレームワークを提案する。
第1段階は空間的手法を用いて特徴を抽出し、十分な空間的詳細と意味情報を持つ特徴を得る。
第2段階は、これらの特徴を空間領域と周波数領域の両方にマッピングする。
SFFNetはmIoUの点で優れた性能を示し、それぞれ84.80%と87.73%に達した。
論文 参考訳(メタデータ) (2024-05-03T10:47:56Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Position-Aware Relation Learning for RGB-Thermal Salient Object
Detection [3.115635707192086]
我々は,Swin Transformerに基づくRGB-T SODのための位置認識型関係学習ネットワーク(PRLNet)を提案する。
PRLNetは、クラス内コンパクト性とクラス間分離を強化するために、ピクセル間の距離と方向の関係を探索する。
さらに、RGB-T SODのマルチスペクトル特徴表現を強化するために、純粋なトランスフォーマーエンコーダデコーダネットワークを構成する。
論文 参考訳(メタデータ) (2022-09-21T07:34:30Z) - Unsupervised Domain Adaptation via Style-Aware Self-intermediate Domain [52.783709712318405]
非教師なしドメイン適応(UDA)は、ラベル豊富なソースドメインから関連するがラベルのないターゲットドメインに知識を伝達する、かなりの注目を集めている。
本研究では,大規模なドメインギャップと伝達知識を橋渡しし,クラス非ネイティブ情報の損失を軽減するために,SAFF(style-aware feature fusion)法を提案する。
論文 参考訳(メタデータ) (2022-09-05T10:06:03Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。