Fugu-MT 論文翻訳(概要): The Impact of Positional Encoding on Length Generalization in Transformers

論文の概要: The Impact of Positional Encoding on Length Generalization in Transformers

arxiv url: http://arxiv.org/abs/2305.19466v2
Date: Mon, 6 Nov 2023 19:48:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 19:31:42.886431
Title: The Impact of Positional Encoding on Length Generalization in Transformers
Title（参考訳）: 変圧器の長大化に及ぼす位置符号化の影響
Authors: Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy
Abstract要約: 復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
参考スコア（独自算出の注目度）: 50.48278691801413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Length generalization, the ability to generalize from small training context sizes to larger ones, is a critical challenge in the development of Transformer-based language models. Positional encoding (PE) has been identified as a major factor influencing length generalization, but the exact impact of different PE schemes on extrapolation in downstream tasks remains unclear. In this paper, we conduct a systematic empirical study comparing the length generalization performance of decoder-only Transformers with five different position encoding approaches including Absolute Position Embedding (APE), T5's Relative PE, ALiBi, and Rotary, in addition to Transformers without positional encoding (NoPE). Our evaluation encompasses a battery of reasoning and mathematical tasks. Our findings reveal that the most commonly used positional encoding methods, such as ALiBi, Rotary, and APE, are not well suited for length generalization in downstream tasks. More importantly, NoPE outperforms other explicit positional encoding methods while requiring no additional computation. We theoretically demonstrate that NoPE can represent both absolute and relative PEs, but when trained with SGD, it mostly resembles T5's relative PE attention patterns. Finally, we find that scratchpad is not always helpful to solve length generalization and its format highly impacts the model's performance. Overall, our work suggests that explicit position embeddings are not essential for decoder-only Transformers to generalize well to longer sequences.
Abstract（参考訳）: 長さ一般化(long generalization)は、小さなトレーニングコンテキストからより大きなものに一般化する能力であり、トランスフォーマーベースの言語モデルの開発において重要な課題である。位置符号化(PE)は長さ一般化に影響を及ぼす主要な要因とされているが、下流タスクにおける外挿に対する異なるPEスキームの正確な影響は明らかでない。本稿では, 絶対位置埋め込み (APE) , T5 の相対 PE, ALiBi, Rotary を含む5つの異なる位置符号化アプローチを用いたデコーダのみの変換器の長さ一般化性能の比較実験を行い, 位置符号化 (NoPE) のない変換器について検討した。我々の評価は、推論と数学的タスクのバッテリーを含む。その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。さらに重要なことは、NoPEは他の明示的な位置符号化手法よりも優れており、追加の計算は不要である。理論的には、NPEは絶対的かつ相対的なPEの両方を表現できるが、SGDで訓練すると、T5の相対的なPE注意パターンにほとんど似ている。最後に、スクラッチパッドは必ずしも長さの一般化を解くのに役立ちませんし、そのフォーマットがモデルの性能に大きな影響を与えます。全体としては,デコーダのみのトランスフォーマーがより長いシーケンスをうまく一般化するためには,明示的な位置埋め込みが不可欠ではないことを示唆している。

関連論文リスト

SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文参考訳（メタデータ） (2025-06-16T09:16:40Z)
Context-aware Biases for Length Extrapolation [0.0]
長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。入力シーケンスに基づいて位置バイアスを動的に調整することにより、CABLEは固定されたRPEの剛性を克服する。提案手法はFineWeb-Edu10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-03-11T05:54:58Z)
The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文参考訳（メタデータ） (2025-02-24T03:01:03Z)
Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。位置符号化を伴わない変圧器長一般化特性について検討する。 NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文参考訳（メタデータ） (2024-04-18T14:38:32Z)
Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文参考訳（メタデータ） (2024-02-14T18:18:29Z)
Functional Interpolation for Relative Positions Improves Long Context Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。 FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文参考訳（メタデータ） (2023-10-06T17:59:11Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
CAPE: Encoding Relative Positions with Continuous Augmented Positional Embeddings [33.87449556591022]
絶対位置埋め込みのための拡張型アプローチ(CAPE)を提案する。 CAPEは絶対(単純さと速度)と相対的な位置埋め込み(一般化)の両方の利点を保っている。
論文参考訳（メタデータ） (2021-06-06T14:54:55Z)
Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。 RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文参考訳（メタデータ） (2021-05-18T09:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。