論文の概要: Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding
- arxiv url: http://arxiv.org/abs/2312.17044v4
- Date: Tue, 2 Apr 2024 04:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:23:11.368480
- Title: Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding
- Title(参考訳): 変圧器の長さ外挿:位置エンコーディングの観点から
- Authors: Liang Zhao, Xiaocheng Feng, Xiachong Feng, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin, Ting Liu,
- Abstract要約: Transformerは、生まれてから嵐によって自然言語処理(NLP)の分野に進出してきた。
大きな言語モデル(LLM)は、その優れた能力のために世界中で注目を集めている。
これらの強力なLLMを含むトランスフォーマーベースのモデルは全て、プリセットされた長さ制限に悩まされており、短いトレーニングシーケンスからより長い推論シーケンスへの一般化は困難である。
- 参考スコア(独自算出の注目度): 40.98734594005952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has taken the field of natural language processing (NLP) by storm since its birth. Further, Large language models (LLMs) built upon it have captured worldwide attention due to its superior abilities. Nevertheless, all Transformer-based models including these powerful LLMs suffer from a preset length limit and can hardly generalize from short training sequences to longer inference ones, namely, they can not perform length extrapolation. Hence, a plethora of methods have been proposed to enhance length extrapolation of Transformer, in which the positional encoding (PE) is recognized as the major factor. In this survey, we present these advances towards length extrapolation in a unified notation from the perspective of PE. Specifically, we first introduce extrapolatable PEs, including absolute and relative PEs. Then, we dive into extrapolation methods based on them, covering position interpolation and randomized position methods. Finally, several challenges and future directions in this area are highlighted. Through this survey, We aim to enable the reader to gain a deep understanding of existing methods and provide stimuli for future research.
- Abstract(参考訳): Transformerは、生まれてから嵐によって自然言語処理(NLP)の分野に進出してきた。
さらに、その上に構築されたLarge Language Model (LLM) は、その優れた能力のために世界中の注目を集めている。
しかしながら、これらの強力なLLMを含むトランスフォーマーベースのモデルは全て、予め設定された長さ制限に悩まされており、短いトレーニングシーケンスから長い推論シーケンスへの一般化は困難である。
そのため、トランスフォーマーの長さ外挿を強化する手法が多数提案されており、位置符号化(PE)が主要な要因であると認識されている。
本研究は, PEの観点からの統一表記法において, 長さ外挿に向けてのこれらの進歩を示すものである。
具体的には,絶対および相対的なPEを含む外挿可能なPEを導入する。
そこで我々は,それらに基づいて外挿法を探索し,位置補間とランダム化位置法をカバーする。
最後に、この分野におけるいくつかの課題と今後の方向性を強調します。
本調査を通じて,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目標にしている。
関連論文リスト
- Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Beyond the Limits: A Survey of Techniques to Extend the Context Length
in Large Language Models [18.331620027727354]
大規模言語モデル(LLM)は、コンテキストの理解、論理的推論への関与、応答の生成など、優れた機能を示している。
本調査は,LLMの配列長を拡張するために考案された最近の手法と手法の包括的レビューを提供する。
論文 参考訳(メタデータ) (2024-02-03T19:20:02Z) - Exploring Transformer Extrapolation [19.729619149887014]
長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年、かなりの注目を集めている。
従来の研究では、慎重に設計された相対位置コーパスを用いることで、この特性を達成できることが示されている。
本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。
論文 参考訳(メタデータ) (2023-07-19T17:37:03Z) - The Impact of Positional Encoding on Length Generalization in
Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T00:29:55Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis [72.71398034617607]
我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。
バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
論文 参考訳(メタデータ) (2022-12-20T15:40:17Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。