論文の概要: FAVOR#: Sharp Attention Kernel Approximations via New Classes of
Positive Random Features
- arxiv url: http://arxiv.org/abs/2302.00787v1
- Date: Wed, 1 Feb 2023 22:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:59:08.568232
- Title: FAVOR#: Sharp Attention Kernel Approximations via New Classes of
Positive Random Features
- Title(参考訳): favor#: 正のランダム特徴の新しいクラスによる鋭い注意のカーネル近似
- Authors: Valerii Likhosherstov, Krzysztof Choromanski, Avinava Dubey, Frederick
Liu, Tamas Sarlos, Adrian Weller
- Abstract要約: 本稿では,ガウスとソフトマックス・カーネルを近似したパラメータ化,正,非三角形のRFを提案する。
提案手法は, カーネル回帰タスクにおいて, 従来の手法よりも分散低減し, 性能的に優れていることを示す。
また,変換器の自己アテンション近似法であるFAVOR#を提案する。
- 参考スコア(独自算出の注目度): 39.282051468586666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of efficient approximation of a linear operator induced by the
Gaussian or softmax kernel is often addressed using random features (RFs) which
yield an unbiased approximation of the operator's result. Such operators emerge
in important applications ranging from kernel methods to efficient
Transformers. We propose parameterized, positive, non-trigonometric RFs which
approximate Gaussian and softmax-kernels. In contrast to traditional RF
approximations, parameters of these new methods can be optimized to reduce the
variance of the approximation, and the optimum can be expressed in closed form.
We show that our methods lead to variance reduction in practice ($e^{10}$-times
smaller variance and beyond) and outperform previous methods in a kernel
regression task. Using our proposed mechanism, we also present FAVOR#, a method
for self-attention approximation in Transformers. We show that FAVOR#
outperforms other random feature methods in speech modelling and natural
language processing.
- Abstract(参考訳): ガウスあるいはソフトマックスカーネルによって誘導される線形作用素の効率的な近似の問題は、しばしば、演算子の結果の偏りのない近似をもたらすランダム特徴(RF)を用いて解決される。
このような演算子は、カーネルメソッドから効率的なトランスフォーマーまで、重要なアプリケーションに現れる。
本稿では,ガウスおよびソフトマックスカーネルを近似したパラメータ化,正の非三角性RFを提案する。
従来のRF近似とは対照的に、これらの新しい手法のパラメータは近似の分散を減らすために最適化することができ、最適は閉じた形で表現できる。
本手法は,カーネル回帰タスクにおいて,従来手法よりも分散低減(e^{10}$-times smaller variance and beyond)し,従来手法よりも優れていた。
提案するメカニズムを用いて、トランスフォーマーにおける自己アテンション近似の方法である favor# も提案する。
FAVOR#は、音声モデリングや自然言語処理において、他のランダムな特徴法よりも優れていることを示す。
関連論文リスト
- Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。
我々はこれらの不変カーネルの最大情報ゲインを導出する。
核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文 参考訳(メタデータ) (2024-10-22T12:51:46Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Towards Unbiased Random Features with Lower Variance For Stationary
Indefinite Kernels [26.57122949130266]
本アルゴリズムは,既存のカーネル近似法と比較して,より低い分散と近似誤差を達成する。
もともと選択されたカーネルの近似性が向上し、分類精度と回帰能力が向上する。
論文 参考訳(メタデータ) (2021-04-13T13:56:50Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Certified and fast computations with shallow covariance kernels [0.0]
パラメータ化された共分散演算子の族を低ランクで近似するアルゴリズムを新たに導入し,解析する。
提案アルゴリズムは,パラメータ依存確率場に対する高速サンプリング法の基礎を提供する。
論文 参考訳(メタデータ) (2020-01-24T20:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。