論文の概要: Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers
- arxiv url: http://arxiv.org/abs/2205.08078v1
- Date: Tue, 17 May 2022 04:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 22:34:55.328924
- Title: Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers
- Title(参考訳): 凸双対による注意の解き方:視覚変換器の解析と解釈
- Authors: Arda Sahiner, Tolga Ergen, Batu Ozturkler, John Pauly, Morteza
Mardani, Mert Pilanci
- Abstract要約: 本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
- 参考スコア(独自算出の注目度): 52.468311268601056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers using self-attention or its proposed alternatives have
demonstrated promising results in many image related tasks. However, the
underpinning inductive bias of attention is not well understood. To address
this issue, this paper analyzes attention through the lens of convex duality.
For the non-linear dot-product self-attention, and alternative mechanisms such
as MLP-mixer and Fourier Neural Operator (FNO), we derive equivalent
finite-dimensional convex problems that are interpretable and solvable to
global optimality. The convex programs lead to {\it block nuclear-norm
regularization} that promotes low rank in the latent feature and token
dimensions. In particular, we show how self-attention networks implicitly
clusters the tokens, based on their latent similarity. We conduct experiments
for transferring a pre-trained transformer backbone for CIFAR-100
classification by fine-tuning a variety of convex attention heads. The results
indicate the merits of the bias induced by attention compared with the existing
MLP or linear heads.
- Abstract(参考訳): セルフ・アテンションまたはその代替案を用いた視覚トランスフォーマーは、多くの画像関連タスクで有望な結果を示している。
しかし、注意の帰納的偏見はよく理解されていない。
この問題に対処するために, 凸双対レンズを用いて注目度を解析する。
MLP-mixer や Fourier Neural Operator (FNO) のような非線形のドット積自己アテンションや代替メカニズムについては、解釈可能で大域的最適性に解決可能な等価な有限次元凸問題を導出する。
凸プログラムは {\it block nuclear-norm regularization} へとつながり、潜在的な特徴とトークン次元の低ランクを促進する。
特に,自己注意ネットワークがトークンを暗黙的にクラスタリングする様子を,その潜在的類似性に基づいて示す。
各種凸アテンションヘッドの微調整によるcifar-100分類のためのプレトレーニングトランスバックボーンの転送実験を行った。
その結果,既存のMLPやリニアヘッドと比較して,注意によるバイアスの利点が示唆された。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Focus the Discrepancy: Intra- and Inter-Correlation Learning for Image
Anomaly Detection [13.801572236048601]
FOD(FOcus-the-Discrepancy)は、異常のパッチワイド、イントラ・イントラ・インター・ディレクレンシーを同時に検出することができる。
本稿では,新たなADフレームワークであるFOcus-the-Discrepancy(FOD)を提案する。
論文 参考訳(メタデータ) (2023-08-06T01:30:26Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。