論文の概要: Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers
- arxiv url: http://arxiv.org/abs/2111.13587v1
- Date: Wed, 24 Nov 2021 05:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-05 05:42:49.724008
- Title: Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers
- Title(参考訳): 適応フーリエニューラルネットワーク:トランスフォーマーのための効率的なトークンミキサー
- Authors: John Guibas, Morteza Mardani, Zongyi Li, Andrew Tao, Anima Anandkumar,
Bryan Catanzaro
- Abstract要約: 本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
- 参考スコア(独自算出の注目度): 55.90468016961356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have delivered tremendous success in representation
learning. This is primarily due to effective token mixing through self
attention. However, this scales quadratically with the number of pixels, which
becomes infeasible for high-resolution inputs. To cope with this challenge, we
propose Adaptive Fourier Neural Operator (AFNO) as an efficient token mixer
that learns to mix in the Fourier domain. AFNO is based on a principled
foundation of operator learning which allows us to frame token mixing as a
continuous global convolution without any dependence on the input resolution.
This principle was previously used to design FNO, which solves global
convolution efficiently in the Fourier domain and has shown promise in learning
challenging PDEs. To handle challenges in visual representation learning such
as discontinuities in images and high resolution inputs, we propose principled
architectural modifications to FNO which results in memory and computational
efficiency. This includes imposing a block-diagonal structure on the channel
mixing weights, adaptively sharing weights across tokens, and sparsifying the
frequency modes via soft-thresholding and shrinkage. The resulting model is
highly parallel with a quasi-linear complexity and has linear memory in the
sequence size. AFNO outperforms self-attention mechanisms for few-shot
segmentation in terms of both efficiency and accuracy. For Cityscapes
segmentation with the Segformer-B3 backbone, AFNO can handle a sequence size of
65k and outperforms other efficient self-attention mechanisms.
- Abstract(参考訳): ビジョントランスフォーマーは表現学習で大きな成功を収めた。
これは主に自己注意による効果的なトークン混合によるものである。
しかし、これは高解像度入力では不可能となるピクセル数と2次的にスケールする。
この課題に対処するために、Fourierドメインの混合を学習する効率的なトークンミキサとして、Adaptive Fourier Neural Operator (AFNO)を提案する。
afnoは、入力解像度に依存することなく、トークン混合を連続的なグローバル畳み込みとしてフレーム化できる演算子学習の原則に基づく。
この原理は、以前はフーリエ領域におけるグローバルな畳み込みを効率的に解決するFNOの設計に用いられており、挑戦するPDEの学習において有望であることを示している。
画像の不連続性や高分解能入力などの視覚表現学習における課題に対処するため、メモリと計算効率をもたらすfnoのアーキテクチャ修正を提案する。
これには、チャネル混合重みにブロック対角構造を付与し、トークン間の重みを適応的に共有し、ソフトスレッショルドと収縮を介して周波数モードをスパースすることが含まれる。
結果として得られるモデルは、準線形複雑性と高い並列性を持ち、シーケンスサイズに線形メモリを持つ。
AFNOは、効率と精度の両面で、数発のセグメンテーションのための自己認識機構より優れている。
segformer-b3バックボーンによる都市景観のセグメンテーションでは、afnoは65kのシーケンスサイズを処理でき、他の効率的なセルフアテンションメカニズムよりも優れている。
関連論文リスト
- LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Invertible Fourier Neural Operators for Tackling Both Forward and
Inverse Problems [18.48295539583625]
前方および逆問題の両方に対処する可逆フーリエニューラル演算子(iFNO)を提案する。
我々は,入力空間内の固有構造を捕捉し,後部推論を可能にする変分自動エンコーダを統合した。
5つのベンチマーク問題に対する評価は,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-18T22:16:43Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Multiscale Attention via Wavelet Neural Operators for Vision
Transformers [0.0]
トランスフォーマーはコンピュータビジョンにおいて広く成功しており、その核心には自己認識(SA)機構がある。
標準SA機構はシークエンスの長さと二次的な複雑さを持ち、高解像度のビジョンに現れる長いシークエンスにその有用性を妨げている。
本稿では,シーケンスサイズが線形に複雑になるウェーブレットニューラル演算子を利用して,MWA(Multiscale Wavelet Attention)を導入する。
論文 参考訳(メタデータ) (2023-03-22T09:06:07Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。