論文の概要: Multiscale Attention via Wavelet Neural Operators for Vision
Transformers
- arxiv url: http://arxiv.org/abs/2303.12398v1
- Date: Wed, 22 Mar 2023 09:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:32:07.505839
- Title: Multiscale Attention via Wavelet Neural Operators for Vision
Transformers
- Title(参考訳): 視覚変換器用ウェーブレットニューラル演算子によるマルチスケールアテンション
- Authors: Anahita Nekoozadeh, Mohammad Reza Ahmadzadeh, Zahra Mardani, Morteza
Mardani
- Abstract要約: トランスフォーマーはコンピュータビジョンにおいて広く成功しており、その核心には自己認識(SA)機構がある。
標準SA機構はシークエンスの長さと二次的な複雑さを持ち、高解像度のビジョンに現れる長いシークエンスにその有用性を妨げている。
本稿では,シーケンスサイズが線形に複雑になるウェーブレットニューラル演算子を利用して,MWA(Multiscale Wavelet Attention)を導入する。
- 参考スコア(独自算出の注目度): 5.66839981364227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved widespread success in computer vision. At their
heart, there is a Self-Attention (SA) mechanism, an inductive bias that
associates each token in the input with every other token through a weighted
basis. The standard SA mechanism has quadratic complexity with the sequence
length, which impedes its utility to long sequences appearing in high
resolution vision. Recently, inspired by operator learning for PDEs, Adaptive
Fourier Neural Operators (AFNO) were introduced for high resolution attention
based on global convolution that is efficiently implemented via FFT. However,
the AFNO global filtering cannot well represent small and moderate scale
structures that commonly appear in natural images. To leverage the
coarse-to-fine scale structures we introduce a Multiscale Wavelet Attention
(MWA) by leveraging wavelet neural operators which incurs linear complexity in
the sequence size. We replace the attention in ViT with MWA and our experiments
with CIFAR and ImageNet classification demonstrate significant improvement over
alternative Fourier-based attentions such as AFNO and Global Filter Network
(GFN).
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンで広く成功を収めた。
彼らの心には自己認識(SA)メカニズムがあり、これはインプット内の各トークンと他のトークンを重み付けによって関連付ける誘導バイアスである。
標準のsa機構は、シーケンス長と二次的な複雑さを持ち、高分解能の視覚に現れる長いシーケンスに有用である。
近年,fftで効率的に実装されるグローバル畳み込みに基づく高分解能注意のための適応フーリエニューラル演算子 (afno) が提案されている。
しかし、AFNOグローバルフィルタリングは、自然画像によく見られる小型で中規模な構造をうまく表すことはできない。
配列サイズが線形に複雑になるウェーブレットニューラル演算子を利用して、粗大から細大のスケール構造を活用するために、マルチスケールウェーブレット注意(MWA)を導入する。
vit の注意を mwa に置き換え,cifar と imagenet の分類で実験を行った結果,afno や global filter network (gfn) といった代替フーリエベースの注意よりも大幅な改善が見られた。
関連論文リスト
- Fourier-enhanced Implicit Neural Fusion Network for Multispectral and Hyperspectral Image Fusion [12.935592400092712]
Inlicit Neural representations (INR) は様々な視覚関連領域において大きな進歩を遂げている。
INRは高周波情報を失う傾向があり、世界的な知覚能力の欠如に制限されている。
本稿では,MHIFタスク用に設計されたFourier-enhanced Implicit Neural Fusion Network (FeINFN)を紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:14:20Z) - TBSN: Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師型イメージデノベーション(SSID)において一般的なネットワークアーキテクチャである。
本稿では, ブラインドスポット要求を満たす変圧器演算子の解析と再設計により, 変圧器ベースブラインドスポットネットワーク(TBSN)を提案する。
空間的自己注意のために、注意行列に精巧なマスクを適用して受容場を制限し、拡張された畳み込みを模倣する。
チャネル自己アテンションについては,マルチスケールアーキテクチャの深層部において,チャネル数が空間的サイズよりも大きい場合,盲点情報を漏洩する可能性がある。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Lightweight Structure-Aware Attention for Visual Understanding [16.860625620412943]
視覚変換器(ViT)は、自己注意演算子を用いた視覚表現学習において支配的なパラダイムとなっている。
本稿では,ログ線形複雑度の高い表現能力を有する軽量構造認識型注意演算子(LiSA)を提案する。
実験およびアブレーション実験により,提案した演算子に基づくViTsが,自己注意や他の既存演算子より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-29T15:20:14Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - OmniNet: Omnidirectional Representations from Transformers [49.23834374054286]
本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。
OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。
自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
論文 参考訳(メタデータ) (2021-03-01T15:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。