Fugu-MT 論文翻訳(概要): KERPLE: Kernelized Relative Positional Embedding for Length Extrapolation

論文の概要: KERPLE: Kernelized Relative Positional Embedding for Length Extrapolation

arxiv url: http://arxiv.org/abs/2205.09921v1
Date: Fri, 20 May 2022 01:25:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-23 13:41:26.485224
Title: KERPLE: Kernelized Relative Positional Embedding for Length Extrapolation
Title（参考訳）: KERPLE:長尺外挿用カーネル化相対的位置埋め込み
Authors: Ta-Chung Chi, Ting-Han Fan, Peter J. Ramadge, Alexander I. Rudnicky
Abstract要約: KERPLEは、位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークである。 CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。
参考スコア（独自算出の注目度）: 72.71398034617607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Relative positional embeddings (RPE) have received considerable attention since RPEs effectively model the relative distance among tokens and enable length extrapolation. We propose KERPLE, a framework that generalizes relative position embedding for extrapolation by kernelizing positional differences. We achieve this goal using conditionally positive definite (CPD) kernels, a class of functions known for generalizing distance metrics. To maintain the inner product interpretation of self-attention, we show that a CPD kernel can be transformed into a PD kernel by adding a constant offset. This offset is implicitly absorbed in the Softmax normalization during self-attention. The diversity of CPD kernels allows us to derive various RPEs that enable length extrapolation in a principled way. Experiments demonstrate that the logarithmic variant achieves excellent extrapolation performance on three large language modeling datasets.
Abstract（参考訳）: RPEはトークン間の相対距離を効果的にモデル化し、長さ外挿を可能にするため、相対的な位置埋め込み (RPE) が注目されている。位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークであるKERPLEを提案する。我々は、距離メトリクスを一般化することで知られる関数のクラスである条件付き正定値(cpd)カーネルを用いて、この目標を達成する。自己注意の内積解釈を維持するため,一定オフセットを追加することにより,PDカーネルをPDカーネルに変換することができることを示す。このオフセットは自己アテンション中のソフトマックス正規化に暗黙的に吸収される。 CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。実験により、対数変種は3つの大きな言語モデリングデータセット上で優れた外挿性能を発揮することが示された。

関連論文リスト

Scaling Gaussian Process Regression with Full Derivative Observations [0.951828574518325]
本稿では、DSoftKIと呼ばれる完全な微分観測に適合し、予測できるスケーラブルなガウス過程(GP)法を提案する。 DSoftKIは、学習したポイント位置からソフトマックスでカーネルを近似するメソッドであるSoftKIを拡張し、デリバティブで設定する。合成関数ベンチマークと高次元分子力場予測(100-1000次元)によるDSoftKIの評価
論文参考訳（メタデータ） (2025-05-14T04:35:26Z)
MEP: Multiple Kernel Learning Enhancing Relative Positional Encoding Length Extrapolation [5.298814565953444]
相対的な位置符号化法は、単一のカーネル関数を実装することで、長さ外挿問題に対処する。本研究では,異なるカーネル関数を結合する重み付き平均を用いた,MEPと呼ばれる新しい相対的位置符号化手法を提案する。我々は,新しい学習可能なパラメータを必要としないパラメータフリー変種と,最先端技術を統合することのできるパラメータ化変種という,2つの異なる方法を提案する。
論文参考訳（メタデータ） (2024-03-26T13:38:06Z)
Kernel Random Projection Depth for Outlier Detection [0.0]
本稿では,データクラウド上の複数モードおよび非ROC性に対応するために,乱深さ曲線(RPD)データセットの拡張を提案する。提案手法では,RCDを再生空間のフレームワークで計算する。
論文参考訳（メタデータ） (2023-06-12T12:05:54Z)
Revisiting Memory Efficient Kernel Approximation: An Indefinite Learning Perspective [0.8594140167290097]
マトリックス近似は、大規模機械学習アプローチにおいて重要な要素である。我々はMEKAをシフト不変カーネルだけでなく、非定常カーネルにも適用できるように拡張する。我々は、安定な正の半定値MEKA近似を開発するために、スペクトルシフトのランツォスに基づく推定を提案する。
論文参考訳（メタデータ） (2021-12-18T10:01:34Z)
Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。我々の手法は古典的DPベースの推論に広く適用できる。また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文参考訳（メタデータ） (2021-12-07T11:26:41Z)
Deep Deterministic Uncertainty for Semantic Segmentation [97.89295891304394]
我々は、Deep Deterministic Uncertainity (DDU) をセマンティックセグメンテーションに拡張する。 DDU は MC Dropout と Deep Ensembles を高速化し,計算速度は大幅に向上した。
論文参考訳（メタデータ） (2021-10-29T20:45:58Z)
Scalable Variational Gaussian Processes via Harmonic Kernel Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文参考訳（メタデータ） (2021-06-10T18:17:57Z)
Towards Unbiased Random Features with Lower Variance For Stationary Indefinite Kernels [26.57122949130266]
本アルゴリズムは,既存のカーネル近似法と比較して,より低い分散と近似誤差を達成する。もともと選択されたカーネルの近似性が向上し、分類精度と回帰能力が向上する。
論文参考訳（メタデータ） (2021-04-13T13:56:50Z)
Fast Learning in Reproducing Kernel Krein Spaces via Signed Measures [31.986482149142503]
我々はこの質問を,強調指標を導入することで,分布視点として捉えた。一連の非PDカーネルは、特定の有限ボレル測度の線型結合に関連付けられる。特に、このソリューションは、大規模なサンプルケースで非PDカーネルをスケールするために、実際に計算的に実装可能である。
論文参考訳（メタデータ） (2020-05-30T12:10:35Z)
SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文参考訳（メタデータ） (2020-03-05T14:33:20Z)
Improved guarantees and a multiple-descent curve for Column Subset Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。 RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文参考訳（メタデータ） (2020-02-21T00:43:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。