論文の概要: Train Short, Test Long: Attention with Linear Biases Enables Input
Length Extrapolation
- arxiv url: http://arxiv.org/abs/2108.12409v1
- Date: Fri, 27 Aug 2021 17:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:17:51.338516
- Title: Train Short, Test Long: Attention with Linear Biases Enables Input
Length Extrapolation
- Title(参考訳): train short, test long: attention with linear biases will input length extrapolation (英語)
- Authors: Ofir Press, Noah A. Smith, Mike Lewis
- Abstract要約: 本稿では,リニアバイアス(ALiBi)を用いた簡易かつ効率的な検査法を提案する。
ALiBiは、単語の埋め込みに位置埋め込みを加えるのではなく、クエリキーのアテンションスコアを、その距離に比例する用語でバイアスする。
本手法では,長さ2048の入力シーケンスに外挿する長さ1024の入力シーケンスに対して,13億のパラメータモデルをトレーニングすることが可能であり,長さ2048の入力に基づいてトレーニングされた正弦波位置埋め込みモデルと同じ難易度を実現する。
- 参考スコア(独自算出の注目度): 62.51758040848735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of the transformer model by Vaswani et al. (2017), a
fundamental question remains open: how to achieve extrapolation at inference
time to longer sequences than seen during training? We first show that
extrapolation can be improved by changing the position representation method,
though we find that existing proposals do not allow efficient extrapolation. We
introduce a simple and efficient method, Attention with Linear Biases (ALiBi),
that allows for extrapolation. ALiBi does not add positional embeddings to the
word embeddings; instead, it biases the query-key attention scores with a term
that is proportional to their distance. We show that this method allows
training a 1.3 billion parameter model on input sequences of length 1024 that
extrapolates to input sequences of length 2048, achieving the same perplexity
as a sinusoidal position embedding model trained on inputs of length 2048, 11%
faster and using 11% less memory. ALiBi's inductive bias towards recency allows
it to outperform multiple strong position methods on the WikiText-103
benchmark. Finally, we provide analysis of ALiBi to understand why it leads to
better performance.
- Abstract(参考訳): Vaswaniらによる変圧器モデルの導入以来。
(2017年) 基礎的な疑問が残る: トレーニング中に見るよりも長いシーケンスの推論時にどのように外挿を達成するか?
まず、位置表現法を変更することで外挿を改善することができることを示すが、既存の提案では効率的な外挿を許さない。
本稿では,線形バイアス(alibi)を用いた簡易かつ効率的な外挿法を提案する。
ALiBiは、単語の埋め込みに位置埋め込みを加えるのではなく、クエリキーのアテンションスコアを、その距離に比例する用語でバイアスする。
本研究では,長さ2048の入力シーケンスに外挿する長さ1024の入力シーケンスに対して13億のパラメータモデルをトレーニングし,長さ2048の入力に対してトレーニングした正弦波位置埋め込みモデルと同じ難易度を実現し,メモリを11%削減した。
ALiBiの遅延に対する帰納バイアスは、WikiText-103ベンチマークで複数の強い位置法を上回ります。
最後に、パフォーマンス向上につながる理由を理解するために、ALiBiの分析を提供する。
関連論文リスト
- On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Bayesian Online Natural Gradient (BONG) [9.800443064368467]
変分ベイズ(VB)に基づく逐次ベイズ推論への新しいアプローチを提案する。
重要な洞察は、オンライン環境では、前もって正規化するためにKLという用語を追加する必要はありません。
提案手法は,非共役条件下での他のオンラインVB手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-30T04:27:36Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Improving Length-Generalization in Transformers via Task Hinting [42.95479331339189]
特に、タスクで訓練された変換器モデルの性能は、同じ問題の長いインスタンスに適用した場合、急激に低下する。
本研究は,タスクヒントに基づく長さ一般化へのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-01T16:57:40Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。