論文の概要: Softmax-free Linear Transformers
- arxiv url: http://arxiv.org/abs/2207.03341v1
- Date: Tue, 5 Jul 2022 03:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-09 08:27:04.570883
- Title: Softmax-free Linear Transformers
- Title(参考訳): ソフトマックスフリーリニアトランス
- Authors: Jiachen Lu, Li Zhang, Junge Zhang, Xiatian Zhu, Hang Xu, Jianfeng Feng
- Abstract要約: ViT(Vision Transformer)は、パッチワイド画像トークン化と積み重ねられた自己注意操作によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は近似中にソフトマックスの自己注意を維持することに根ざしている。
この知見に基づき、SOftmax-Free Transformer (SOFT) を初めて提案する。
- 参考スコア(独自算出の注目度): 55.46592622903474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have pushed the state-of-the-art for various
visual recognition tasks by patch-wise image tokenization followed by stacked
self-attention operations. Employing self-attention modules results in a
quadratic complexity in both computation and memory usage. Various attempts on
approximating the self-attention computation with linear complexity have thus
been made in Natural Language Processing. However, an in-depth analysis in this
work reveals that they are either theoretically flawed or empirically
ineffective for visual recognition. We identify that their limitations are
rooted in retaining the softmax self-attention during approximations.
Specifically, conventional self-attention is computed by normalizing the scaled
dot-product between token feature vectors. Preserving the softmax operation
challenges any subsequent linearization efforts. Under this insight, a
SOftmax-Free Transformer (abbreviated as SOFT) is proposed for the first time.
To eliminate the softmax operator in self-attention, a Gaussian kernel function
is adopted to replace the dot-product similarity. This enables a full
self-attention matrix to be approximated via a low-rank matrix decomposition.
The robustness of our approximation is achieved by calculating its
Moore-Penrose inverse using a Newton-Raphson method. Further, an efficient
symmetric normalization is introduced on the low-rank self-attention for
enhancing model generalizability and transferability. Extensive experiments on
ImageNet, COCO and ADE20K show that our SOFT significantly improves the
computational efficiency of existing ViT variants. Crucially, with a linear
complexity, much longer token sequences are permitted in SOFT, resulting in
superior trade-off between accuracy and complexity.
- Abstract(参考訳): 視覚変換器(ViT)は、パッチワイド画像トークン化と積み重ねられた自己注意操作によって、様々な視覚認識タスクの最先端を推し進めている。
自己アテンションモジュールを使用すると、計算とメモリ使用の両方で二次的な複雑さが発生する。
線形複雑度で自己注意計算を近似する様々な試みが自然言語処理で行われている。
しかし、本研究の詳細な分析により、それらが理論的に欠陥があるか、あるいは視覚認識に実験的に効果がないことが判明した。
これらの制限は近似中にソフトマックスの自己注意を維持することに根ざしている。
具体的には、トークン特徴ベクトル間の拡張ドット積を正規化することにより、従来の自己注意を計算する。
ソフトマックス操作を維持することは、その後の線形化の取り組みに挑戦する。
この知見に基づき、SOftmax-Free Transformer(SOFT)が最初に提案される。
セルフアテンションにおけるソフトマックス演算子をなくすために、ドット生成の類似性を置き換えるためにガウス核関数を採用する。
これにより、全自己着行列は低ランク行列分解によって近似することができる。
この近似のロバスト性は、newton-raphson法によるムーア・ペンローズ逆計算によって達成される。
さらに, モデル一般化性と伝達性を高めるために, 低ランク自己着脱に効率的な対称正規化を導入する。
ImageNet, COCO, ADE20K の大規模な実験により, 我々の SOFT は既存の ViT 変種の計算効率を大幅に向上することが示された。
重要なことに、線形複雑性では、より長いトークンシーケンスがSOFTで認められ、精度と複雑さのトレードオフが優れている。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Low-rank Tensor Learning with Nonconvex Overlapped Nuclear Norm
Regularization [44.54772242784423]
低ランク学習行列に対する効率的な非正規化アルゴリズムを開発した。
提案アルゴリズムは、高価な折り畳み/折り畳み問題を回避することができる。
実験の結果,提案アルゴリズムは既存の状態よりも効率的で空間が広いことがわかった。
論文 参考訳(メタデータ) (2022-05-06T07:47:10Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - FC2T2: The Fast Continuous Convolutional Taylor Transform with
Applications in Vision and Graphics [8.629912408966145]
現代の機械学習の観点から、Taylorシリーズの拡張を再考する。
連続空間における低次元畳み込み作用素の効率的な近似を可能にする高速多重極法(FMM)の変種である高速連続畳み込みテイラー変換(FC2T2)を導入する。
論文 参考訳(メタデータ) (2021-10-29T22:58:42Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。