論文の概要: FAVOR#: Sharp Attention Kernel Approximations via New Classes of
Positive Random Features
- arxiv url: http://arxiv.org/abs/2302.00787v1
- Date: Wed, 1 Feb 2023 22:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:59:08.568232
- Title: FAVOR#: Sharp Attention Kernel Approximations via New Classes of
Positive Random Features
- Title(参考訳): favor#: 正のランダム特徴の新しいクラスによる鋭い注意のカーネル近似
- Authors: Valerii Likhosherstov, Krzysztof Choromanski, Avinava Dubey, Frederick
Liu, Tamas Sarlos, Adrian Weller
- Abstract要約: 本稿では,ガウスとソフトマックス・カーネルを近似したパラメータ化,正,非三角形のRFを提案する。
提案手法は, カーネル回帰タスクにおいて, 従来の手法よりも分散低減し, 性能的に優れていることを示す。
また,変換器の自己アテンション近似法であるFAVOR#を提案する。
- 参考スコア(独自算出の注目度): 39.282051468586666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of efficient approximation of a linear operator induced by the
Gaussian or softmax kernel is often addressed using random features (RFs) which
yield an unbiased approximation of the operator's result. Such operators emerge
in important applications ranging from kernel methods to efficient
Transformers. We propose parameterized, positive, non-trigonometric RFs which
approximate Gaussian and softmax-kernels. In contrast to traditional RF
approximations, parameters of these new methods can be optimized to reduce the
variance of the approximation, and the optimum can be expressed in closed form.
We show that our methods lead to variance reduction in practice ($e^{10}$-times
smaller variance and beyond) and outperform previous methods in a kernel
regression task. Using our proposed mechanism, we also present FAVOR#, a method
for self-attention approximation in Transformers. We show that FAVOR#
outperforms other random feature methods in speech modelling and natural
language processing.
- Abstract(参考訳): ガウスあるいはソフトマックスカーネルによって誘導される線形作用素の効率的な近似の問題は、しばしば、演算子の結果の偏りのない近似をもたらすランダム特徴(RF)を用いて解決される。
このような演算子は、カーネルメソッドから効率的なトランスフォーマーまで、重要なアプリケーションに現れる。
本稿では,ガウスおよびソフトマックスカーネルを近似したパラメータ化,正の非三角性RFを提案する。
従来のRF近似とは対照的に、これらの新しい手法のパラメータは近似の分散を減らすために最適化することができ、最適は閉じた形で表現できる。
本手法は,カーネル回帰タスクにおいて,従来手法よりも分散低減(e^{10}$-times smaller variance and beyond)し,従来手法よりも優れていた。
提案するメカニズムを用いて、トランスフォーマーにおける自己アテンション近似の方法である favor# も提案する。
FAVOR#は、音声モデリングや自然言語処理において、他のランダムな特徴法よりも優れていることを示す。
関連論文リスト
- RFFNet: Scalable and interpretable kernel methods via Random Fourier
Features [3.7438590597720784]
本稿では,カーネルマシンパラメータとカーネル関連性に基づく変数選択手法を提案する。
また,非パラメトリックな目的関数を効率よく実現する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-11T18:50:34Z) - Linear Time Kernel Matrix Approximation via Hyperspherical Harmonics [3.24890820102255]
機械学習のカーネル手法で発生する行列の低ランク近似を構築するための新しい手法を提案する。
提案手法では,基礎となるカーネル関数の解析的拡張をデータ依存圧縮ステップと組み合わせて,近似をさらに最適化する。
実験の結果,提案手法は,与えられたランクの精度と,与えられた精度の計算時間の両方に関して,カーネル,次元,データセットにまたがってよく用いられるNystrom法と比較した。
論文 参考訳(メタデータ) (2022-02-08T05:19:39Z) - Hybrid Random Features [60.116392415715275]
ハイブリッドランダム特徴(HRF)と呼ばれるソフトマックスとガウス核の線形化のための新しいランダム特徴法を提案する。
HRFは、カーネル推定の品質を自動的に適応し、定義された関心領域の最も正確な近似を提供する。
論文 参考訳(メタデータ) (2021-10-08T20:22:59Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Towards Unbiased Random Features with Lower Variance For Stationary
Indefinite Kernels [26.57122949130266]
本アルゴリズムは,既存のカーネル近似法と比較して,より低い分散と近似誤差を達成する。
もともと選択されたカーネルの近似性が向上し、分類精度と回帰能力が向上する。
論文 参考訳(メタデータ) (2021-04-13T13:56:50Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Certified and fast computations with shallow covariance kernels [0.0]
パラメータ化された共分散演算子の族を低ランクで近似するアルゴリズムを新たに導入し,解析する。
提案アルゴリズムは,パラメータ依存確率場に対する高速サンプリング法の基礎を提供する。
論文 参考訳(メタデータ) (2020-01-24T20:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。