論文の概要: Context-aware Biases for Length Extrapolation
- arxiv url: http://arxiv.org/abs/2503.08067v1
- Date: Tue, 11 Mar 2025 05:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:26.472512
- Title: Context-aware Biases for Length Extrapolation
- Title(参考訳): 長さ外挿用コンテキスト認識バイアス
- Authors: Ali Veisi, Amir Mansourian,
- Abstract要約: より長いシーケンスに一般化するトランスフォーマーの能力は、シーケンスの長さが増加するにつれて低下する。
ほとんどの相対位置エドゥ法(RPE)は、定数線形バイアスを追加したり、一般的なバイアスを学習することでこの問題に対処する。
本稿では,デコーダをベースとしたトランスフォーマーにおいて,各ヘッドのトークン固有のバイアスを学習するコンテキスト認識型長寿命補間法(Cable)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformers' ability to generalize to longer sequences than they have been trained on, known as length extrapolation, degrades as sequence length increases. Most of Relative Positional Encoding (RPE) methods address this problem by either adding constant linear biases or learning general biases, lacking the ability to specialize for different sequences. In this work, inspired by ALiBi, we propose Context-aware Biases for Length Extrapolation (Cable), that learns token-specific biases for each head in decoder-based transformers. Cable learns adaptive, context-aware biases, overcoming the limitations of fixed patterns by adding dynamic biases specific to each token in the sequence. Results show that when tested on a sequence length of 1024, a GPT-3 Medium (334M parameters) with our positional encoding, trained on a sequence length of 512, achieves better perplexity (-0.65) than a similar network with sinusoidal positional encoding trained on a sequence length of 1024. This is achieved with 48% lower memory usage, and only 3.5% higher training time. Furthermore, our method notably improves the extrapolation ability of existing RPE methods on the Edu-FineWeb10B and WikiText-103 datasets. Code is available at: https://github.com/axiomlab/Cable
- Abstract(参考訳): トランスフォーマーがトレーニング対象よりも長いシーケンスに一般化する能力は、長さ外挿と呼ばれ、シーケンスの長さが増加するにつれて劣化する。
相対的位置エンコーディング(RPE)法の多くは、線形バイアスを一定に追加するか、あるいは一般的なバイアスを学習することでこの問題に対処する。
この研究はALiBiにインスパイアされ、デコーダベースのトランスフォーマーにおいて、各ヘッドのトークン固有のバイアスを学習するコンテキスト認識ビアーズ for Length Extrapolation (Cable)を提案する。
Cableは適応的でコンテキスト対応のバイアスを学び、シーケンス内の各トークンに特有の動的バイアスを加えることで、固定パターンの制限を克服する。
その結果, 配列長1024のGPT-3メディア(334Mパラメータ)を用いて, 配列長512のGPT-3ミディアムを用いて, 配列長1024のGPT-3ミディアム(334Mパラメータ)を用いて測定すると, 配列長1024のGPT-3ミディアム(334Mパラメータ)でトレーニングした正弦波位置符号化と類似のネットワークに比べて, パープレキシティ(-0.65)が向上することがわかった。
これは48%のメモリ使用率と3.5%のトレーニング時間で達成される。
さらに,Edu-FineWeb10B および WikiText-103 データセット上の既存の RPE メソッドの補間能力も向上する。
コードは、https://github.com/axiomlab/Cableで入手できる。
関連論文リスト
- Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。
本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文 参考訳(メタデータ) (2023-11-04T11:38:53Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Randomized Positional Encodings Boost Length Generalization of
Transformers [14.814408238614165]
トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。
文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。
この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-05-26T11:47:52Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Train Short, Test Long: Attention with Linear Biases Enables Input
Length Extrapolation [62.51758040848735]
本稿では,リニアバイアス(ALiBi)を用いた簡易かつ効率的な検査法を提案する。
ALiBiは、単語の埋め込みに位置埋め込みを加えるのではなく、クエリキーのアテンションスコアを、その距離に比例する用語でバイアスする。
本手法では,長さ2048の入力シーケンスに外挿する長さ1024の入力シーケンスに対して,13億のパラメータモデルをトレーニングすることが可能であり,長さ2048の入力に基づいてトレーニングされた正弦波位置埋め込みモデルと同じ難易度を実現する。
論文 参考訳(メタデータ) (2021-08-27T17:35:06Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。