論文の概要: FwNet-ECA: Facilitating Window Attention with Global Receptive Fields through Fourier Filtering Operations
- arxiv url: http://arxiv.org/abs/2502.18094v1
- Date: Tue, 25 Feb 2025 11:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:15.862765
- Title: FwNet-ECA: Facilitating Window Attention with Global Receptive Fields through Fourier Filtering Operations
- Title(参考訳): FwNet-ECA:フーリエフィルタ操作による大域的受容場を考慮したウィンドウアテンションの実現
- Authors: Shengtian Mian, Ya Wang, Nannan Gu, Yuping Wang, Xiaoqing Li,
- Abstract要約: 大域的注意機構に固有の過度な計算の問題を緩和するために,窓付き注意機構を導入した。
FwNet-ECAは、フーリエ変換と学習可能な重み行列を組み合わせ、画像のスペクトル特性を高める新しい手法である。
- 参考スコア(独自算出の注目度): 6.125180322871157
- License:
- Abstract: Windowed attention mechanisms were introduced to mitigate the issue of excessive computation inherent in global attention mechanisms. However, In this paper, we present FwNet-ECA, a novel method that utilizes Fourier transforms paired with learnable weight matrices to enhance the spectral features of images. This strategy facilitates inter-window connectivity, thereby maximizing the receptive field. Additionally, we incorporate the Efficient Channel Attention (ECA) module to improve communication between different channels. Instead of relying on physically shifted windows, our approach leverages frequency domain enhancement to implicitly bridge information across spatial regions. We validate our model on the iCartoonFace dataset and conduct downstream tasks on ImageNet, demonstrating that our model achieves lower parameter counts and computational overheads compared to shifted window approaches, while maintaining competitive accuracy. This work offers a more efficient and effective alternative for leveraging attention mechanisms in visual processing tasks, alleviating the challenges associated with windowed attention models. Code is available at https://github.com/qingxiaoli/FwNet-ECA.
- Abstract(参考訳): 大域的注意機構に固有の過度な計算の問題を緩和するために,窓付き注意機構を導入した。
本稿では,フーリエ変換と学習可能な重み行列を組み合わせることで,画像のスペクトル特性を向上させる手法であるFwNet-ECAを提案する。
この戦略はウィンドウ間の接続を容易にし、受容場を最大化する。
さらに,異なるチャネル間の通信を改善するために,ECA(Efficient Channel Attention)モジュールを組み込んだ。
物理的にシフトしたウィンドウに頼るのではなく、周波数領域の強化を利用して空間領域に情報を暗黙的にブリッジする。
我々は、iCartoonFaceデータセット上でモデルを検証し、ImageNet上で下流タスクを実行し、競合精度を維持しながら、シフトウインドウアプローチと比較してパラメータ数と計算オーバーヘッドが低いことを実証した。
この作業は、視覚処理タスクにおける注意機構を活用するためのより効率的で効果的な代替手段を提供し、ウィンドウ化された注意モデルに関連する課題を軽減する。
コードはhttps://github.com/qingxiaoli/FwNet-ECA.comで入手できる。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Parameter-Free Average Attention Improves Convolutional Neural Network
Performance (Almost) Free of Charge [0.0]
我々はPfAAMと呼ばれるパラメータフリーのアテンション機構を導入する。
PfAAMは、計算オーバーヘッドが少なく、モデルサイズに影響を与えることなく、様々な畳み込みニューラルネットワークアーキテクチャにプラグインすることができる。
これは、コンピュータビジョンタスクのための汎用的な使い勝手の良いモジュールとして、幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-10-14T13:56:43Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - MixFormer: Mixing Features across Windows and Dimensions [68.86393312123168]
ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
論文 参考訳(メタデータ) (2022-04-06T03:13:50Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Multi-stage Attention ResU-Net for Semantic Segmentation of
Fine-Resolution Remote Sensing Images [9.398340832493457]
この問題に対処するための線形注意機構(LAM)を提案する。
LAMは、計算効率の高いドット積アテンションとほぼ同値である。
微細なリモートセンシング画像からのセマンティックセグメンテーションのためのマルチステージアテンションResU-Netを設計する。
論文 参考訳(メタデータ) (2020-11-29T07:24:21Z) - Rotate to Attend: Convolutional Triplet Attention Module [21.228370317693244]
3分岐構造を用いた新しい注意重み計算法である三重項注意法を提案する。
本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。
ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-06T21:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。