論文の概要: Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding
- arxiv url: http://arxiv.org/abs/2312.17044v5
- Date: Sun, 06 Oct 2024 08:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:01.098572
- Title: Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding
- Title(参考訳): 変圧器の長さ外挿:位置エンコーディングの観点から
- Authors: Liang Zhao, Xiachong Feng, Xiaocheng Feng, Weihong Zhong, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin, Ting Liu,
- Abstract要約: 大型言語モデル(LLM)を含むトランスフォーマーベースのモデルは全て、プリセットされた長さ制限に悩まされる。
トランスフォーマーの長さ外挿を強化するために多くの方法が出現している。
本調査は,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目的としている。
- 参考スコア(独自算出の注目度): 40.289596031245374
- License:
- Abstract: Built upon the Transformer, large language models (LLMs) have captured worldwide attention due to their remarkable abilities. Nevertheless, all Transformer-based models including LLMs suffer from a preset length limit and can hardly generalize from short training sequences to longer inference ones, namely, they cannot perform length extrapolation to handle long sequences, which severely hinders their application in scenarios demanding long input sequences such as legal or scientific documents. Thus, numerous methods have emerged to enhance the length extrapolation of Transformers. Despite the great research efforts, a systematic survey is still lacking. To fill this gap, we delve into these advances in a unified notation from the perspective of positional encoding (PE), as it has been considered the primary factor on length extrapolation. Specifically, we begin with extrapolatable PEs that have dominated this research field. Then, we dive into extrapolation methods based on them, covering position interpolation and randomized position methods. Finally, several challenges and future directions in this area are highlighted. Through this survey, we aim to enable the reader to gain a deep understanding of existing methods and provide stimuli for future research.
- Abstract(参考訳): Transformerをベースに構築された大型言語モデル(LLM)は、その顕著な能力のために世界中で注目を集めている。
しかしながら、LSMを含むトランスフォーマーベースのモデルは全て、予め設定された長さ制限に悩まされており、短いトレーニングシーケンスから長い推論シーケンスへの一般化は困難である。
このように、トランスフォーマーの長さ外挿を強化するために多くの方法が出現している。
大きな研究努力にもかかわらず、体系的な調査はいまだに不足している。
このギャップを埋めるために、位置符号化(PE)の観点から、これらの進歩を統一的な表記法で掘り下げる。
具体的には、この研究分野を支配した外挿可能なPEから始める。
そこで我々は,それらに基づいて外挿法を探索し,位置補間とランダム化位置法をカバーする。
最後に、この分野におけるいくつかの課題と今後の方向性を強調します。
本調査は,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目的としている。
関連論文リスト
- DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - On the Resurgence of Recurrent Models for Long Sequences -- Survey and
Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。
長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文 参考訳(メタデータ) (2024-02-12T23:55:55Z) - Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models [17.300251335326173]
大規模言語モデル(LLM)は、コンテキストの理解、論理的推論への関与、応答の生成など、優れた機能を示している。
本調査は,LLMの配列長を拡張するために考案された最近の手法と手法の包括的レビューを提供する。
論文 参考訳(メタデータ) (2024-02-03T19:20:02Z) - Exploring Transformer Extrapolation [19.729619149887014]
長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年、かなりの注目を集めている。
従来の研究では、慎重に設計された相対位置コーパスを用いることで、この特性を達成できることが示されている。
本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。
論文 参考訳(メタデータ) (2023-07-19T17:37:03Z) - Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis [72.71398034617607]
我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。
バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
論文 参考訳(メタデータ) (2022-12-20T15:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。