論文の概要: Receptive Field Alignment Enables Transformer Length Extrapolation
- arxiv url: http://arxiv.org/abs/2212.10356v1
- Date: Tue, 20 Dec 2022 15:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:39:25.632865
- Title: Receptive Field Alignment Enables Transformer Length Extrapolation
- Title(参考訳): 変圧器長の補間を可能にする受容磁場アライメント
- Authors: Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky
- Abstract要約: 長さ補間は、短いシーケンスでトランスフォーマー言語モデルをトレーニングできる望ましい性質である。
変圧器自己アテンション行列 ALiBi に印加された相対的な位置埋め込み機構は、これまでで最も広く使われている長さ外挿特性を示す。
ALiBiと受動的アライメント仮説にインスパイアされ、トレーニングシーケンス長情報よりも長くなるtextbfSandwichという別のトランスフォーマー位置埋め込み設計を提案する。
- 参考スコア(独自算出の注目度): 72.62922437443156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length extrapolation is a desirable property that permits training a
transformer language model on short sequences and retaining similar
perplexities when the model is tested on substantially longer sequences. A
relative positional embedding mechanism applied on the transformer
self-attention matrix, ALiBi, demonstrates the length extrapolation property
with the widest usage to date. In this paper, we show that ALiBi surprisingly
does not utilize tokens further than the training sequence length, which can be
explained by its implicit windowed attention effect that aligns the receptive
field during training and testing stages. Inspired by ALiBi and the receptive
filed alignment hypothesis, we propose another transformer positional embedding
design named~\textbf{Sandwich} that uses longer than training sequence length
information, and it is a greatly simplified formulation of the earliest
proposed Sinusoidal positional embedding. Finally, we show that both ALiBi and
Sandwich enable efficient inference thanks to their implicit windowed attention
effect.
- Abstract(参考訳): 長長補間は、短いシーケンス上でトランスフォーマー言語モデルをトレーニングし、モデルがかなり長いシーケンスでテストされるときに同様の難易度を維持することができる望ましい特性である。
変圧器自己アテンション行列 ALiBi に印加された相対的な位置埋め込み機構は、これまでで最も広く使われている長さ外挿特性を示す。
本報告では,albiがトレーニングシーケンス長以上のトークンを驚くほど利用していないことを示し,トレーニングとテストの段階で受容野に合わせた暗黙の窓付き注意効果によって説明できる。
アリバイと受容的アライメント仮説に触発されて, 訓練シーケンス長情報よりも長い情報を用いる--\textbf{sandwich} という別のトランスフォーマティブ位置埋め込み設計を提案し, 初期の正弦波位置埋め込み法を単純化した。
最後に,albi と sandwich が暗黙の窓付き注意効果により効率的な推論を可能にすることを示す。
関連論文リスト
- Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding [40.289596031245374]
大型言語モデル(LLM)を含むトランスフォーマーベースのモデルは全て、プリセットされた長さ制限に悩まされる。
トランスフォーマーの長さ外挿を強化するために多くの方法が出現している。
本調査は,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目的としている。
論文 参考訳(メタデータ) (2023-12-28T14:42:24Z) - Attention Alignment and Flexible Positional Embeddings Improve
Transformer Length Extrapolation [61.305218287797025]
理想的な長伸長トランスフォーマー言語モデルは、微調整なしでトレーニング長よりも長いシーケンスを処理できる。
T5ファミリーは、位置埋め込みがリッチでフレキシブルな注意パターンを捉えているので、よりよく見るべきである。
この問題を軽減するために,温度スケーリングによる2つのアライメント戦略を提案する。
論文 参考訳(メタデータ) (2023-11-01T17:43:35Z) - Position Interpolation Improves ALiBi Extrapolation [2.1454660086411796]
線形バイアス付き注意(ALiBi)を用いた外挿範囲モデルの拡張に線形位置を用いることを提案する。
上流言語モデリングおよび下流要約および検索タスクにおける外挿能力を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-18T16:41:47Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Causal Transformer for Estimating Counterfactual Outcomes [18.640006398066188]
多くのアプリケーションでは、観測データから時間とともに反現実的な結果を予測することが重要となる。
我々は、時間とともに反現実的な結果を予測するための新しい因果変換器を開発した。
私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係をキャプチャするために特別に設計されています。
論文 参考訳(メタデータ) (2022-04-14T22:40:09Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Deriving Differential Target Propagation from Iterating Approximate
Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。
そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文 参考訳(メタデータ) (2020-07-29T22:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。