論文の概要: Context-aware Biases for Length Extrapolation
- arxiv url: http://arxiv.org/abs/2503.08067v2
- Date: Sat, 31 May 2025 06:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.192926
- Title: Context-aware Biases for Length Extrapolation
- Title(参考訳): 長さ外挿用コンテキスト認識バイアス
- Authors: Ali Veisi, Hamidreza Amirzadeh, Amir Mansourian,
- Abstract要約: 長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。
入力シーケンスに基づいて位置バイアスを動的に調整することにより、CABLEは固定されたRPEの剛性を克服する。
提案手法はFineWeb-Edu10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers often struggle to generalize to longer sequences than those seen during training, a limitation known as length extrapolation. Most existing Relative Positional Encoding (RPE) methods attempt to address this by introducing either fixed linear biases or globally learned biases, which lack the capacity to adapt to different input contexts. In this work, we propose an additive RPE, Context-Aware Biases for Length Extrapolation (CABLE), a method that learns token-specific, context-aware biases for each attention head in transformers. By dynamically adjusting positional biases based on the input sequence, CABLE overcomes the rigidity of fixed RPEs. When evaluated on sequences longer than originally trained with, GPT-2 Medium (334M parameters) with CABLE achieves lower perplexity than counterparts using other widely adopted positional encoding methods. Additionally, by applying CABLE to the BERT base model we improved performance in long-context retrieval tasks. Our method significantly enhances the extrapolation performance of existing RPE methods tested on the FineWeb-Edu10B and WikiText-103 datasets. Code is available at: https://github.com/axiomlab/cable
- Abstract(参考訳): トランスフォーマーはしばしば、トレーニング中に見られるものよりも長いシーケンスに一般化するのに苦労する。
既存のRPE(Relative Positional Encoding)手法は、固定線形バイアスや、異なる入力コンテキストに適応する能力に欠ける世界的な学習バイアスを導入することで、この問題に対処しようとしている。
本研究では,コンテクスト外挿法(CABLE)の付加的RPE(Context-Aware Biases for Length Extrapolation)を提案する。
入力シーケンスに基づいて位置バイアスを動的に調整することにより、CABLEは固定されたRPEの剛性を克服する。
CABLE を用いた GPT-2 Medium (334M パラメータ) は,従来より長いシーケンスで評価される場合,他の広く採用されている位置符号化法よりも低いパープレキシティを実現する。
さらに、BERTベースモデルにCABLEを適用することにより、長文検索タスクの性能を改善した。
提案手法はFineWeb-Edu10BおよびWikiText-103データセット上でテストされた既存のRPEメソッドの補間性能を大幅に向上させる。
コードは、https://github.com/axiomlab/cableで入手できる。
関連論文リスト
- Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。
本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文 参考訳(メタデータ) (2023-11-04T11:38:53Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Randomized Positional Encodings Boost Length Generalization of
Transformers [14.814408238614165]
トランスフォーマーは、一定のコンテキスト長のタスクに対して印象的な一般化機能を持つ。
文字列の重複のような一見単純なタスクであっても、任意の長さの列に一般化できない。
この問題を克服できる位置エンコーディングの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-05-26T11:47:52Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Train Short, Test Long: Attention with Linear Biases Enables Input
Length Extrapolation [62.51758040848735]
本稿では,リニアバイアス(ALiBi)を用いた簡易かつ効率的な検査法を提案する。
ALiBiは、単語の埋め込みに位置埋め込みを加えるのではなく、クエリキーのアテンションスコアを、その距離に比例する用語でバイアスする。
本手法では,長さ2048の入力シーケンスに外挿する長さ1024の入力シーケンスに対して,13億のパラメータモデルをトレーニングすることが可能であり,長さ2048の入力に基づいてトレーニングされた正弦波位置埋め込みモデルと同じ難易度を実現する。
論文 参考訳(メタデータ) (2021-08-27T17:35:06Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。