論文の概要: Softmax-free Linear Transformers
- arxiv url: http://arxiv.org/abs/2207.03341v3
- Date: Fri, 15 Mar 2024 00:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 08:10:52.887889
- Title: Softmax-free Linear Transformers
- Title(参考訳): ソフトマックスフリーリニアトランス
- Authors: Jiachen Lu, Junge Zhang, Xiatian Zhu, Jianfeng Feng, Tao Xiang, Li Zhang,
- Abstract要約: 視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
- 参考スコア(独自算出の注目度): 90.83157268265654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have pushed the state-of-the-art for visual perception tasks. The self-attention mechanism underpinning the strength of ViTs has a quadratic complexity in both computation and memory usage. This motivates the development of approximating the self-attention at linear complexity. However, an in-depth analysis in this work reveals that existing methods are either theoretically flawed or empirically ineffective for visual recognition. We identify that their limitations are rooted in the inheritance of softmax-based self-attention during approximations, that is, normalizing the scaled dot-product between token feature vectors using the softmax function. As preserving the softmax operation challenges any subsequent linearization efforts. By this insight, a family of Softmax-Free Transformers (SOFT) are proposed. Specifically, a Gaussian kernel function is adopted to replace the dot-product similarity, enabling a full self-attention matrix to be approximated under low-rank matrix decomposition. For computational robustness, we estimate the Moore-Penrose inverse using an iterative Newton-Raphson method in the forward process only, while calculating its theoretical gradients only once in the backward process. To further expand applicability (e.g., dense prediction tasks), an efficient symmetric normalization technique is introduced. Extensive experiments on ImageNet, COCO, and ADE20K show that our SOFT significantly improves the computational efficiency of existing ViT variants. With linear complexity, much longer token sequences are permitted by SOFT, resulting in superior trade-off between accuracy and complexity. Code and models are available at https://github.com/fudan-zvg/SOFT.
- Abstract(参考訳): 視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
ViTの強度を支える自己保持機構は、計算とメモリ使用の両方において二次的な複雑さを持つ。
このことは、線形複雑性における自己意識の近似の発展を動機付けている。
しかし、本研究では、既存の手法が理論的に欠陥があるか、あるいは視覚認識に実験的に効果がないことが明らかにされている。
これらの制限は,ソフトマックス関数を用いたトークン特徴ベクトル間の拡張ドット積の正規化という,近似中のソフトマックスに基づく自己注意の継承に根ざしている。
ソフトマックス演算の保存として、その後の線形化の取り組みに挑戦する。
この知見により、Softmax-Free Transformers (SOFT) のファミリーが提案されている。
具体的には、ガウス核関数はドット積の類似性を置き換えるために採用され、完全な自己注意行列をローランク行列分解の下で近似することができる。
計算的ロバスト性について、ムーア・ペンローズ逆を前方過程のみにおいて反復ニュートン・ラフソン法を用いて推定し、後方過程においてその理論勾配を1回だけ計算する。
適用性(例えば高密度予測タスク)をさらに拡張するため、効率的な対称正規化手法が導入された。
ImageNet, COCO, ADE20K の大規模な実験により, 我々の SOFT は既存の ViT 変種の計算効率を大幅に向上することを示した。
線形複雑性では、より長いトークンシーケンスがSOFTによって許容され、精度と複雑さのトレードオフが優れている。
コードとモデルはhttps://github.com/fudan-zvg/SOFT.comで公開されている。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Low-rank Tensor Learning with Nonconvex Overlapped Nuclear Norm
Regularization [44.54772242784423]
低ランク学習行列に対する効率的な非正規化アルゴリズムを開発した。
提案アルゴリズムは、高価な折り畳み/折り畳み問題を回避することができる。
実験の結果,提案アルゴリズムは既存の状態よりも効率的で空間が広いことがわかった。
論文 参考訳(メタデータ) (2022-05-06T07:47:10Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - FC2T2: The Fast Continuous Convolutional Taylor Transform with
Applications in Vision and Graphics [8.629912408966145]
現代の機械学習の観点から、Taylorシリーズの拡張を再考する。
連続空間における低次元畳み込み作用素の効率的な近似を可能にする高速多重極法(FMM)の変種である高速連続畳み込みテイラー変換(FC2T2)を導入する。
論文 参考訳(メタデータ) (2021-10-29T22:58:42Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。