論文の概要: Adaptive Frequency Filters As Efficient Global Token Mixers
- arxiv url: http://arxiv.org/abs/2307.14008v1
- Date: Wed, 26 Jul 2023 07:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 13:07:22.165792
- Title: Adaptive Frequency Filters As Efficient Global Token Mixers
- Title(参考訳): 効率的なグローバルトケミキサーとしての適応周波数フィルタ
- Authors: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu,
Baining Guo
- Abstract要約: 適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
- 参考スコア(独自算出の注目度): 100.27957692579892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision transformers, large-kernel CNNs and MLPs have attained
remarkable successes in broad vision tasks thanks to their effective
information fusion in the global scope. However, their efficient deployments,
especially on mobile devices, still suffer from noteworthy challenges due to
the heavy computational costs of self-attention mechanisms, large kernels, or
fully connected layers. In this work, we apply conventional convolution theorem
to deep learning for addressing this and reveal that adaptive frequency filters
can serve as efficient global token mixers. With this insight, we propose
Adaptive Frequency Filtering (AFF) token mixer. This neural operator transfers
a latent representation to the frequency domain via a Fourier transform and
performs semantic-adaptive frequency filtering via an elementwise
multiplication, which mathematically equals to a token mixing operation in the
original latent space with a dynamic convolution kernel as large as the spatial
resolution of this latent representation. We take AFF token mixers as primary
neural operators to build a lightweight neural network, dubbed AFFNet.
Extensive experiments demonstrate the effectiveness of our proposed AFF token
mixer and show that AFFNet achieve superior accuracy and efficiency trade-offs
compared to other lightweight network designs on broad visual tasks, including
visual recognition and dense prediction tasks.
- Abstract(参考訳): 近年のビジョントランスフォーマー、大型カーネルcnn、mlpは、グローバルスコープでの効果的な情報融合により、広いビジョンタスクにおいて顕著な成功を収めている。
しかし、その効率的なデプロイメント、特にモバイルデバイスでは、自己着脱機構や大きなカーネル、あるいは完全に接続されたレイヤの計算コストが重いため、依然として注目すべき課題に直面している。
本研究では,従来の畳み込み定理を深層学習に適用し,適応周波数フィルタが効率的なグローバルトークンミキサーとして機能することを示す。
そこで本研究では,適応周波数フィルタ(AFF)トークンミキサーを提案する。
このニューラル演算子は、フーリエ変換を介して潜在表現を周波数領域に転送し、要素分割乗算による意味適応周波数フィルタリングを実行し、この潜在表現の空間分解能よりも大きな動的畳み込み核を持つ元の潜在空間におけるトークン混合演算に数学的に等しい。
affトークンミキサーを主要なニューラルネットワークとして、afnetと呼ばれる軽量ニューラルネットワークを構築する。
提案したAFFトークンミキサーの有効性を実証し,AFFNetが視覚認識や密集予測タスクを含む広範囲な視覚的タスクにおいて,他の軽量ネットワーク設計と比較して精度と効率のトレードオフを達成できることを実証した。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Multiscale Attention via Wavelet Neural Operators for Vision
Transformers [0.0]
トランスフォーマーはコンピュータビジョンにおいて広く成功しており、その核心には自己認識(SA)機構がある。
標準SA機構はシークエンスの長さと二次的な複雑さを持ち、高解像度のビジョンに現れる長いシークエンスにその有用性を妨げている。
本稿では,シーケンスサイズが線形に複雑になるウェーブレットニューラル演算子を利用して,MWA(Multiscale Wavelet Attention)を導入する。
論文 参考訳(メタデータ) (2023-03-22T09:06:07Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。