論文の概要: Beyond Nystr\"omformer -- Approximation of self-attention by Spectral
Shifting
- arxiv url: http://arxiv.org/abs/2103.05638v1
- Date: Tue, 9 Mar 2021 12:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:06:39.530051
- Title: Beyond Nystr\"omformer -- Approximation of self-attention by Spectral
Shifting
- Title(参考訳): beyond nystr\"omformer --スペクトルシフトによる自己アテンションの近似
- Authors: Madhusudan Verma
- Abstract要約: Transformerは、自己意識に基づく多くの自然言語タスクのための強力なツールです。
自己アテンションの計算はその二次時間の複雑さによるボトルネックである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer is a powerful tool for many natural language tasks which is based
on self-attention, a mechanism that encodes the dependence of other tokens on
each specific token, but the computation of self-attention is a bottleneck due
to its quadratic time complexity. There are various approaches to reduce the
time complexity and approximation of matrix is one such. In Nystr\"omformer,
the authors used Nystr\"om based method for approximation of softmax. The
Nystr\"om method generates a fast approximation to any large-scale symmetric
positive semidefinite (SPSD) matrix using only a few columns of the SPSD
matrix. However, since the Nystr\"om approximation is low-rank when the
spectrum of the SPSD matrix decays slowly, the Nystr\"om approximation is of
low accuracy. Here an alternative method is proposed for approximation which
has a much stronger error bound than the Nystr\"om method. The time complexity
of this same as Nystr\"omformer which is $O\left({n}\right)$.
- Abstract(参考訳): トランスフォーマーは多くの自然言語タスクの強力なツールであり、各トークンに対する他のトークンの依存をエンコードするメカニズムであるセルフアテンションに基づいているが、自己アテンションの計算はその二次時間の複雑さのためにボトルネックとなる。
行列の時間的複雑さと近似を減少させる方法は様々である。
Nystr\"omformerでは、著者はSoftmaxの近似にNystr\"omベースの方法を使用した。
Nystr\"om 法はSPSD行列のいくつかの列のみを用いて任意の大規模対称正半定行列に対する高速近似を生成する。
しかし、SPSD行列のスペクトルがゆっくりと減衰すると、Nystr\"om近似は低ランクであるため、Nystr\"om近似は低精度である。
ここでは、nystr\"om法よりもはるかに強い誤差境界を持つ近似に対する代替法を提案する。
この時間の複雑さは Nystr\"omformer と同じで、$O\left({n}\right)$ である。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Boosting Nystr\"{o}m Method [0.688204255655161]
Nystr"om法は、大きな行列の低ランク近似を生成する効果的なツールである。
我々は,複数の弱い'Nystr'om近似を反復的に生成するNystr"omを高速化する新しいアルゴリズム群を提案する。
我々は、Nystr"omアルゴリズムの高速化により、カーネル行列に対するより効率的で正確な低ランク近似が得られることを示した。
論文 参考訳(メタデータ) (2023-02-21T22:20:55Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Optimal Randomized Approximations for Matrix based Renyi's Entropy [16.651155375441796]
整数次数$alpha$の場合のランダム近似と非整数$alpha$の場合の直列近似を開発する。
大規模シミュレーションと実世界の応用は、開発した近似の有効性を検証する。
論文 参考訳(メタデータ) (2022-05-16T02:24:52Z) - Computationally Efficient Approximations for Matrix-based Renyi's
Entropy [33.72108955447222]
最近開発された行列ベースのRenyiのエントロピーは、データ内の情報の計測を可能にする。
そのような量の計算には、PSD行列の$G$上のトレース演算子を$alpha$(つまり$tr(Galpha)$)の電力とする。
我々は、この新しいエントロピー汎函数に対する計算学的に効率的な近似を示し、その複雑性を$O(n2)$よりもはるかに小さくすることができる。
論文 参考訳(メタデータ) (2021-12-27T14:59:52Z) - Sublinear Time Approximation of Text Similarity Matrices [50.73398637380375]
一般的なNystr"om法を不確定な設定に一般化する。
我々のアルゴリズムは任意の類似性行列に適用でき、行列のサイズでサブ線形時間で実行される。
本手法は,CUR分解の単純な変種とともに,様々な類似性行列の近似において非常によく機能することを示す。
論文 参考訳(メタデータ) (2021-12-17T17:04:34Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。