論文の概要: MEP: Multiple Kernel Learning Enhancing Relative Positional Encoding Length Extrapolation
- arxiv url: http://arxiv.org/abs/2403.17698v1
- Date: Tue, 26 Mar 2024 13:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:17:51.068637
- Title: MEP: Multiple Kernel Learning Enhancing Relative Positional Encoding Length Extrapolation
- Title(参考訳): MEP:複数カーネル学習による相対的位置エンコーディング長推定
- Authors: Weiguo Gao,
- Abstract要約: 相対的な位置符号化法は、単一のカーネル関数を実装することで、長さ外挿問題に対処する。
本研究では,異なるカーネル関数を結合する重み付き平均を用いた,MEPと呼ばれる新しい相対的位置符号化手法を提案する。
我々は,新しい学習可能なパラメータを必要としないパラメータフリー変種と,最先端技術を統合することのできるパラメータ化変種という,2つの異なる方法を提案する。
- 参考スコア(独自算出の注目度): 5.298814565953444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When the predicted sequence length exceeds the length seen during training, the transformer's inference accuracy diminishes. Existing relative position encoding methods, such as those based on the ALiBi technique, address the length extrapolation challenge exclusively through the implementation of a single kernel function, which introduces a constant bias to every post-softmax attention scores according to their distance. These approaches do not investigate or employ multiple kernel functions to address the extrapolation challenge. Drawing on the ALiBi approach, this study proposes a novel relative positional encoding method, called MEP, which employs a weighted average to combine distinct kernel functions(such as the exponential kernel and the Gaussian kernel) to generate a bias that is applied to post-softmax attention scores. Initially, the framework utilizes various kernel functions to construct multiple kernel functions. Each kernel function adheres to a consistent mean weight coefficient, harnessing the synergistic advantages of different kernels to formulate an innovative bias function. Subsequently, specific slopes are tailored for each kernel function, applying penalties at varying rates, to enhance the model's extrapolation capabilities. Finally, this bias is seamlessly incorporated as a penalty to the post-softmax scores. We present two distinct versions of our method: a parameter-free variant that requires no new learnable parameters, which enhances length extrapolation capabilities without compromising training efficiency, and a parameterized variant capable of integrating state-of-the-art techniques. Empirical evaluations across diverse datasets have demonstrated that both variants of our method achieve state-of-the-art performance, outperforming traditional parameter-free and parameterized approaches.
- Abstract(参考訳): 予測シーケンス長がトレーニング中に見られる長さを超えると、変圧器の推測精度は低下する。
ALiBi技術に基づくような、既存の相対的な位置符号化手法は、単一のカーネル関数を実装することで、長さ外挿問題に対処する。
これらの手法は外挿問題に対処するために複数のカーネル関数を調査または利用しない。
そこで本研究では,ALiBi を用いた新しい相対的位置符号化手法 MEP を提案する。これは,重み付き平均を用いて,異なるカーネル関数(指数カーネルやガウスカーネルなど)を組み合わせて,ソフトマックス後のアテンションスコアに適用されるバイアスを生成する。
当初、このフレームワークは複数のカーネル関数を構築するために様々なカーネル関数を利用する。
それぞれのカーネル関数は一貫した平均重み係数に固執し、異なるカーネルの相乗的優位性を利用して革新的なバイアス関数を定式化する。
その後、特定の勾配は各カーネル機能に合わせて調整され、異なる速度でペナルティを適用し、モデルの外挿能力を高める。
最後に、このバイアスは、ポストソフトマックススコアに対するペナルティとしてシームレスに組み込まれます。
本稿では,新しい学習可能なパラメータを必要としないパラメータフリー変種と,トレーニング効率を損なうことなく長さ外挿能力を向上するパラメータフリー変種と,最先端技術の統合が可能なパラメータ化変種について述べる。
多様なデータセットにまたがる経験的評価により,提案手法の変種はいずれも最先端の性能を達成し,従来のパラメータフリー・パラメータ化手法よりも優れていることが示された。
関連論文リスト
- Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - On the Approximation of Kernel functions [0.0]
論文はカーネル自体の近似に対処する。
単位立方体上のヒルベルト・ガウス核に対して、この論文は関連する固有関数の上界を確立する。
この改良により、Nystr"om法のような低階近似法が確かめられる。
論文 参考訳(メタデータ) (2024-03-11T13:50:07Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - KERPLE: Kernelized Relative Positional Embedding for Length
Extrapolation [72.71398034617607]
KERPLEは、位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークである。
CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。
論文 参考訳(メタデータ) (2022-05-20T01:25:57Z) - Linear Time Kernel Matrix Approximation via Hyperspherical Harmonics [3.24890820102255]
機械学習のカーネル手法で発生する行列の低ランク近似を構築するための新しい手法を提案する。
提案手法では,基礎となるカーネル関数の解析的拡張をデータ依存圧縮ステップと組み合わせて,近似をさらに最適化する。
実験の結果,提案手法は,与えられたランクの精度と,与えられた精度の計算時間の両方に関して,カーネル,次元,データセットにまたがってよく用いられるNystrom法と比較した。
論文 参考訳(メタデータ) (2022-02-08T05:19:39Z) - Revisiting Memory Efficient Kernel Approximation: An Indefinite Learning
Perspective [0.8594140167290097]
マトリックス近似は、大規模機械学習アプローチにおいて重要な要素である。
我々はMEKAをシフト不変カーネルだけでなく、非定常カーネルにも適用できるように拡張する。
我々は、安定な正の半定値MEKA近似を開発するために、スペクトルシフトのランツォスに基づく推定を提案する。
論文 参考訳(メタデータ) (2021-12-18T10:01:34Z) - Spectrum Gaussian Processes Based On Tunable Basis Functions [15.088239458693003]
ガウス過程におけるカーネル関数を近似するために, チューナブル, 局所, 有界な新しい基底関数を導入する。
オープンソースデータセットに関する広範な実験を行い、その性能を実証する。
論文 参考訳(メタデータ) (2021-07-14T03:51:24Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Towards Unbiased Random Features with Lower Variance For Stationary
Indefinite Kernels [26.57122949130266]
本アルゴリズムは,既存のカーネル近似法と比較して,より低い分散と近似誤差を達成する。
もともと選択されたカーネルの近似性が向上し、分類精度と回帰能力が向上する。
論文 参考訳(メタデータ) (2021-04-13T13:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。