論文の概要: Functional Interpolation for Relative Positions Improves Long Context
Transformers
- arxiv url: http://arxiv.org/abs/2310.04418v2
- Date: Sun, 3 Mar 2024 02:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 02:20:58.476848
- Title: Functional Interpolation for Relative Positions Improves Long Context
Transformers
- Title(参考訳): 相対位置の関数補間による長所変圧器の改良
- Authors: Shanda Li, Chong You, Guru Guruganesh, Joshua Ainslie, Santiago
Ontanon, Manzil Zaheer, Sumit Sanghai, Yiming Yang, Sanjiv Kumar, Srinadh
Bhojanapalli
- Abstract要約: 本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
- 参考スコア(独自算出の注目度): 86.12843093589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preventing the performance decay of Transformers on inputs longer than those
used for training has been an important challenge in extending the context
length of these models. Though the Transformer architecture has fundamentally
no limits on the input sequence lengths it can process, the choice of position
encoding used during training can limit the performance of these models on
longer inputs. We propose a novel functional relative position encoding with
progressive interpolation, FIRE, to improve Transformer generalization to
longer contexts. We theoretically prove that this can represent some of the
popular relative position encodings, such as T5's RPE, Alibi, and Kerple. We
next empirically show that FIRE models have better generalization to longer
contexts on both zero-shot language modeling and long text benchmarks.
- Abstract(参考訳): 入力におけるトランスフォーマーの性能低下の防止は、これらのモデルのコンテキスト長を延ばす上で重要な課題であった。
トランスフォーマーアーキテクチャは基本的に処理可能な入力シーケンスの長さに制限がないが、トレーニング中に使用される位置エンコーディングの選択は、より長い入力でこれらのモデルの性能を制限できる。
本稿では,より長い文脈における変圧器の一般化を改善するために,プログレッシブ補間による関数相対位置符号化手法fireを提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングの一部を表すことができる。
次に、ゼロショット言語モデリングと長文ベンチマークの両方において、FIREモデルはより長い文脈での一般化より優れていることを実証的に示す。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Investigating Efficiently Extending Transformers for Long Input
Summarization [37.622021824791254]
本稿では,アーキテクチャ変更と事前学習のパラダイムが,長期入力の要約のために,事前学習したトランスフォーマを最も効率的に適用できるかを検討する。
我々は,グローバルトークンを持つブロックローカルトランスフォーマーは,性能と効率のバランスが良いことを見出した。
PEGモデルの拡張であるPEG-Xを導入し、入力を最大16Kのトークンで処理する。
論文 参考訳(メタデータ) (2022-08-08T18:10:58Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文 参考訳(メタデータ) (2021-05-18T09:52:32Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。