論文の概要: SOFT: Softmax-free Transformer with Linear Complexity
- arxiv url: http://arxiv.org/abs/2110.11945v1
- Date: Fri, 22 Oct 2021 17:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:16:14.770203
- Title: SOFT: Softmax-free Transformer with Linear Complexity
- Title(参考訳): SOFT:線形複雑度を有するソフトマックスフリー変圧器
- Authors: Jiachen Lu, Jinghan Yao, Junge Zhang, Xiatian Zhu, Hang Xu, Weiguo
Gao, Chunjing Xu, Tao Xiang, Li Zhang
- Abstract要約: 視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
- 参考スコア(独自算出の注目度): 112.9754491864247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have pushed the state-of-the-art for various
visual recognition tasks by patch-wise image tokenization followed by
self-attention. However, the employment of self-attention modules results in a
quadratic complexity in both computation and memory usage. Various attempts on
approximating the self-attention computation with linear complexity have been
made in Natural Language Processing. However, an in-depth analysis in this work
shows that they are either theoretically flawed or empirically ineffective for
visual recognition. We further identify that their limitations are rooted in
keeping the softmax self-attention during approximations. Specifically,
conventional self-attention is computed by normalizing the scaled dot-product
between token feature vectors. Keeping this softmax operation challenges any
subsequent linearization efforts. Based on this insight, for the first time, a
softmax-free transformer or SOFT is proposed. To remove softmax in
self-attention, Gaussian kernel function is used to replace the dot-product
similarity without further normalization. This enables a full self-attention
matrix to be approximated via a low-rank matrix decomposition. The robustness
of the approximation is achieved by calculating its Moore-Penrose inverse using
a Newton-Raphson method. Extensive experiments on ImageNet show that our SOFT
significantly improves the computational efficiency of existing ViT variants.
Crucially, with a linear complexity, much longer token sequences are permitted
in SOFT, resulting in superior trade-off between accuracy and complexity.
- Abstract(参考訳): 視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
しかし、自己アテンションモジュールの雇用は計算とメモリ使用の両方において二次的な複雑さをもたらす。
自然言語処理において,線形複雑度で自己注意計算を近似する様々な試みがなされている。
しかし、本研究の詳細な分析は、それらが理論的に欠陥があるか、あるいは視覚認識に実験的に効果がないことを示している。
さらに、それらの制限は近似中にソフトマックスの自己注意を維持することに根ざしていると確認する。
具体的には、トークン特徴ベクトル間の拡張ドット積を正規化することにより、従来の自己注意を計算する。
このソフトマックス操作を維持することは、その後の線形化の取り組みに挑戦する。
この知見に基づいて,ソフトマックスフリー変圧器(SOFT)を初めて提案する。
自己アテンションにおいてソフトマックスを取り除くために、ガウス核関数はさらなる正規化なしにドット生成の類似性を置き換えるために用いられる。
これにより、全自己着行列は低ランク行列分解によって近似することができる。
近似のロバスト性は、ニュートン・ラフソン法を用いてムーア・ペンローズ逆計算によって達成される。
imagenet の広範な実験により,既存の vit 変異体の計算効率が大幅に向上した。
重要なことに、線形複雑性では、より長いトークンシーケンスがSOFTで認められ、精度と複雑さのトレードオフが優れている。
関連論文リスト
- Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - Compute-Efficient Medical Image Classification with Softmax-Free Transformers and Sequence Normalization [1.6275928583134276]
Transformerモデルは、自然言語処理、音声認識、コンピュータビジョンなどの進歩する分野において重要な役割を担っている。
このモデルの重要な制限は、シーケンス長に対して2次計算とメモリの複雑さである。
これは、高解像度画像がギガピクセルスケールに達する医療画像において特に重要である。
論文 参考訳(メタデータ) (2024-06-03T13:27:08Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Low-rank Tensor Learning with Nonconvex Overlapped Nuclear Norm
Regularization [44.54772242784423]
低ランク学習行列に対する効率的な非正規化アルゴリズムを開発した。
提案アルゴリズムは、高価な折り畳み/折り畳み問題を回避することができる。
実験の結果,提案アルゴリズムは既存の状態よりも効率的で空間が広いことがわかった。
論文 参考訳(メタデータ) (2022-05-06T07:47:10Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。