論文の概要: Position Interpolation Improves ALiBi Extrapolation
- arxiv url: http://arxiv.org/abs/2310.13017v1
- Date: Wed, 18 Oct 2023 16:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-24 02:16:07.927639
- Title: Position Interpolation Improves ALiBi Extrapolation
- Title(参考訳): 位置補間によるALiBi外挿の改善
- Authors: Faisal Al-Khateeb, Nolan Dey, Daria Soboleva, Joel Hestness
- Abstract要約: 線形バイアス付き注意(ALiBi)を用いた外挿範囲モデルの拡張に線形位置を用いることを提案する。
上流言語モデリングおよび下流要約および検索タスクにおける外挿能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 2.1454660086411796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear position interpolation helps pre-trained models using rotary position
embeddings (RoPE) to extrapolate to longer sequence lengths. We propose using
linear position interpolation to extend the extrapolation range of models using
Attention with Linear Biases (ALiBi). We find position interpolation
significantly improves extrapolation capability on upstream language modelling
and downstream summarization and retrieval tasks.
- Abstract(参考訳): 線形位置補間は、回転位置埋め込み(RoPE)を用いて、長い列長への外挿を行う事前訓練モデルに役立つ。
本稿では、線形位置補間を用いて、線形バイアス(ALiBi)を用いたモデルの外挿範囲を拡張することを提案する。
位置補間は上流言語モデリングおよび下流要約および検索タスクにおける外挿能力を大幅に改善する。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Extending Context Window of Large Language Models via Positional
Interpolation [26.076599895589098]
我々は,RoPEをベースとした事前学習LLMのコンテキストウィンドウサイズを,最小限の微調整(1000ステップ以内)で最大32768まで拡張する位置補間法を提案する。
パスキー検索,言語モデリング,LLaMA 7B から 65B までの長い文書要約など,長いコンテキストを必要とするタスクに対して,強い経験的結果を示す。
論文 参考訳(メタデータ) (2023-06-27T16:26:26Z) - Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis [72.71398034617607]
我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。
バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
論文 参考訳(メタデータ) (2022-12-20T15:40:17Z) - Benign overfitting and adaptive nonparametric regression [71.70323672531606]
本研究では,データポイントを高い確率で補間する連続関数である推定器を構築する。
我々は未知の滑らかさに適応してH"古いクラスのスケールにおいて平均2乗リスクの下で最小値の最適速度を得る。
論文 参考訳(メタデータ) (2022-06-27T14:50:14Z) - KERPLE: Kernelized Relative Positional Embedding for Length
Extrapolation [72.71398034617607]
KERPLEは、位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークである。
CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。
論文 参考訳(メタデータ) (2022-05-20T01:25:57Z) - On Optimal Interpolation In Linear Regression [22.310861786709538]
線形回帰において補間する最適な方法は、応答変数において線形となる関数を使用することである。
我々は,最小ノルム補間器が最適応答-線形到達可能な補間器よりも任意に悪い一般化を行う機構を同定する。
我々は、線形データ生成モデルの下で、最適応答リニアの概念をランダムな特徴回帰に拡張する。
論文 参考訳(メタデータ) (2021-10-21T16:37:10Z) - Compressing Deep ODE-Nets using Basis Function Expansions [105.05435207079759]
重みの定式化を基底関数の線形結合を用いた連続深度関数とみなす。
この観点では、ほぼ最先端の性能を維持しながら、再トレーニングすることなく、ベースの変化によって重みを圧縮することができる。
これにより、推論時間とメモリフットプリントの両方が削減され、計算環境間の高速で厳密な適応が可能となる。
論文 参考訳(メタデータ) (2021-06-21T03:04:51Z) - Anti-Aliasing Add-On for Deep Prior Seismic Data Interpolation [20.336981948463702]
問題に正則化項として方向ラプラシアンを加えることで,Deep Prior Inversionを改善することを提案する。
ノイズや破損したデータの存在下でも,この結果がエイリアスする傾向が低いことを示す。
論文 参考訳(メタデータ) (2021-01-27T12:46:58Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。