論文の概要: Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis
- arxiv url: http://arxiv.org/abs/2212.10356v2
- Date: Tue, 23 May 2023 21:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 02:30:17.603857
- Title: Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis
- Title(参考訳): 受容場解析用レンズによる変圧器長さの分別外挿法
- Authors: Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky and Peter J.
Ramadge
- Abstract要約: 我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。
バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
- 参考スコア(独自算出の注目度): 72.71398034617607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length extrapolation permits training a transformer language model on short
sequences that preserves perplexities when tested on substantially longer
sequences. A relative positional embedding design, ALiBi, has had the widest
usage to date. We dissect ALiBi via the lens of receptive field analysis
empowered by a novel cumulative normalized gradient tool. The concept of
receptive field further allows us to modify the vanilla Sinusoidal positional
embedding to create ~\textbf{Sandwich}, the first parameter-free relative
positional embedding design that truly length information uses longer than the
training sequence. Sandwich shares with KERPLE and T5 the same logarithmic
decaying temporal bias pattern with learnable relative positional embeddings;
these elucidate future extrapolatable positional embedding design.
- Abstract(参考訳): 長さの補間により、かなり長いシーケンスでテストした場合の複雑さを保った短いシーケンスでトランスフォーマー言語モデルを訓練することができる。
相対的な位置埋め込み設計であるALiBiは、これまでで最も広く使われてきた。
我々は,新しい累積正規化勾配ツールにより付与された受容視野分析レンズを用いてアリバイを解剖する。
受容場の概念はさらにバニラ正弦波の位置埋め込みを修正して~\textbf{sandwich} を作成することができる。
サンドウィッチはKERPLEとT5と、学習可能な相対的な位置埋め込みと同一の対数減衰時間バイアスパターンを共有している。
関連論文リスト
- Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding [40.289596031245374]
大型言語モデル(LLM)を含むトランスフォーマーベースのモデルは全て、プリセットされた長さ制限に悩まされる。
トランスフォーマーの長さ外挿を強化するために多くの方法が出現している。
本調査は,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目的としている。
論文 参考訳(メタデータ) (2023-12-28T14:42:24Z) - Attention Alignment and Flexible Positional Embeddings Improve
Transformer Length Extrapolation [61.305218287797025]
理想的な長伸長トランスフォーマー言語モデルは、微調整なしでトレーニング長よりも長いシーケンスを処理できる。
T5ファミリーは、位置埋め込みがリッチでフレキシブルな注意パターンを捉えているので、よりよく見るべきである。
この問題を軽減するために,温度スケーリングによる2つのアライメント戦略を提案する。
論文 参考訳(メタデータ) (2023-11-01T17:43:35Z) - Position Interpolation Improves ALiBi Extrapolation [2.1454660086411796]
線形バイアス付き注意(ALiBi)を用いた外挿範囲モデルの拡張に線形位置を用いることを提案する。
上流言語モデリングおよび下流要約および検索タスクにおける外挿能力を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-18T16:41:47Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Causal Transformer for Estimating Counterfactual Outcomes [18.640006398066188]
多くのアプリケーションでは、観測データから時間とともに反現実的な結果を予測することが重要となる。
我々は、時間とともに反現実的な結果を予測するための新しい因果変換器を開発した。
私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係をキャプチャするために特別に設計されています。
論文 参考訳(メタデータ) (2022-04-14T22:40:09Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Deriving Differential Target Propagation from Iterating Approximate
Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。
そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文 参考訳(メタデータ) (2020-07-29T22:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。