論文の概要: Skyformer: Remodel Self-Attention with Gaussian Kernel and Nystr\"om
Method
- arxiv url: http://arxiv.org/abs/2111.00035v1
- Date: Fri, 29 Oct 2021 18:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 12:58:49.133716
- Title: Skyformer: Remodel Self-Attention with Gaussian Kernel and Nystr\"om
Method
- Title(参考訳): Skyformer: Gaussian Kernel と Nystr\"om 法による自己認識のモデル化
- Authors: Yifan Chen, Qi Zeng, Heng Ji, Yun Yang
- Abstract要約: モデルトレーニングを安定させるために,ソフトマックス構造をガウスカーネルに置き換えるSkyformerを導入し,計算を高速化するためにNystr"om法を適用した。
Long Range Arenaベンチマークの実験では、提案手法は完全な自己注意よりも同等かそれ以上の性能を得るのに十分であることが示された。
- 参考スコア(独自算出の注目度): 35.62926659320816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are expensive to train due to the quadratic time and space
complexity in the self-attention mechanism. On the other hand, although kernel
machines suffer from the same computation bottleneck in pairwise dot products,
several approximation schemes have been successfully incorporated to
considerably reduce their computational cost without sacrificing too much
accuracy. In this work, we leverage the computation methods for kernel machines
to alleviate the high computational cost and introduce Skyformer, which
replaces the softmax structure with a Gaussian kernel to stabilize the model
training and adapts the Nystr\"om method to a non-positive semidefinite matrix
to accelerate the computation. We further conduct theoretical analysis by
showing that the matrix approximation error of our proposed method is small in
the spectral norm. Experiments on Long Range Arena benchmark show that the
proposed method is sufficient in getting comparable or even better performance
than the full self-attention while requiring fewer computation resources.
- Abstract(参考訳): トランスフォーマーは、自己保持機構の2次時間と空間の複雑さのために、訓練に費用がかかる。
一方、カーネルマシンは、ペアワイズドット製品において同じ計算ボトルネックに苦しんでいるが、精度を犠牲にすることなく計算コストを大幅に削減するためにいくつかの近似スキームが組み込まれている。
本研究では,計算コストの低減のためにカーネルマシンの計算手法を活用し,モデルトレーニングを安定化するためにソフトマックス構造をガウスカーネルに置き換え,nystr\"om法を非正の半定値行列に適用して計算を高速化するskyformerを導入する。
さらに,提案手法の行列近似誤差がスペクトルノルムにおいて小さいことを示すことにより,理論解析を行う。
Long Range Arenaベンチマークの実験では、提案手法は計算資源を少なくしながら、完全な自己注意よりも同等あるいはそれ以上の性能を得るのに十分であることが示された。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Reconstructing Kernel-based Machine Learning Force Fields with
Super-linear Convergence [0.18416014644193063]
我々は、プレコンディショナーを構築するためのNystr"om-typeメソッドの幅広いクラスについて考察する。
検討されたすべての方法は、支配的なカーネルスペクトルを近似するために、インジェクション(カーネル)列の代表的なサブセットを特定することを目的としている。
論文 参考訳(メタデータ) (2022-12-24T13:45:50Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Improved Convergence Rates for Sparse Approximation Methods in
Kernel-Based Learning [48.08663378234329]
カーネル・リッジ・レグレッションやガウシアン・プロセスのようなカーネル・ベース・モデルは機械学習の応用においてユビキタスである。
既存のスパース近似法は計算コストを大幅に削減することができる。
我々は,Nystr"om法と疎変動ガウス過程近似法に対して,新しい信頼区間を提供する。
論文 参考訳(メタデータ) (2022-02-08T17:22:09Z) - Linear Time Kernel Matrix Approximation via Hyperspherical Harmonics [3.24890820102255]
機械学習のカーネル手法で発生する行列の低ランク近似を構築するための新しい手法を提案する。
提案手法では,基礎となるカーネル関数の解析的拡張をデータ依存圧縮ステップと組み合わせて,近似をさらに最適化する。
実験の結果,提案手法は,与えられたランクの精度と,与えられた精度の計算時間の両方に関して,カーネル,次元,データセットにまたがってよく用いられるNystrom法と比較した。
論文 参考訳(メタデータ) (2022-02-08T05:19:39Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - The Fast Kernel Transform [21.001203328543006]
本稿では,FKT(Fast Kernel Transform:高速カーネル変換)を提案する。
FKT はガウス、マテルン、ラショナル四次共分散関数や物理的に動機付けられたグリーン関数など、幅広い種類のカーネルに容易に適用できる。
本稿では、時間と精度のベンチマークを提供することによりFKTの有効性と汎用性を説明し、それを近隣埋め込み(t-SNE)とガウス過程を大規模実世界のデータセットに拡張する。
論文 参考訳(メタデータ) (2021-06-08T16:15:47Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。