Fugu-MT 論文翻訳(概要): Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding

論文の概要: Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding

arxiv url: http://arxiv.org/abs/2312.17044v4
Date: Tue, 2 Apr 2024 04:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 11:23:11.368480
Title: Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding
Title（参考訳）: 変圧器の長さ外挿:位置エンコーディングの観点から
Authors: Liang Zhao, Xiaocheng Feng, Xiachong Feng, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin, Ting Liu,
Abstract要約: Transformerは、生まれてから嵐によって自然言語処理(NLP)の分野に進出してきた。大きな言語モデル(LLM)は、その優れた能力のために世界中で注目を集めている。これらの強力なLLMを含むトランスフォーマーベースのモデルは全て、プリセットされた長さ制限に悩まされており、短いトレーニングシーケンスからより長い推論シーケンスへの一般化は困難である。
参考スコア（独自算出の注目度）: 40.98734594005952
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer has taken the field of natural language processing (NLP) by storm since its birth. Further, Large language models (LLMs) built upon it have captured worldwide attention due to its superior abilities. Nevertheless, all Transformer-based models including these powerful LLMs suffer from a preset length limit and can hardly generalize from short training sequences to longer inference ones, namely, they can not perform length extrapolation. Hence, a plethora of methods have been proposed to enhance length extrapolation of Transformer, in which the positional encoding (PE) is recognized as the major factor. In this survey, we present these advances towards length extrapolation in a unified notation from the perspective of PE. Specifically, we first introduce extrapolatable PEs, including absolute and relative PEs. Then, we dive into extrapolation methods based on them, covering position interpolation and randomized position methods. Finally, several challenges and future directions in this area are highlighted. Through this survey, We aim to enable the reader to gain a deep understanding of existing methods and provide stimuli for future research.
Abstract（参考訳）: Transformerは、生まれてから嵐によって自然言語処理(NLP)の分野に進出してきた。さらに、その上に構築されたLarge Language Model (LLM) は、その優れた能力のために世界中の注目を集めている。しかしながら、これらの強力なLLMを含むトランスフォーマーベースのモデルは全て、予め設定された長さ制限に悩まされており、短いトレーニングシーケンスから長い推論シーケンスへの一般化は困難である。そのため、トランスフォーマーの長さ外挿を強化する手法が多数提案されており、位置符号化(PE)が主要な要因であると認識されている。本研究は, PEの観点からの統一表記法において, 長さ外挿に向けてのこれらの進歩を示すものである。具体的には,絶対および相対的なPEを含む外挿可能なPEを導入する。そこで我々は,それらに基づいて外挿法を探索し,位置補間とランダム化位置法をカバーする。最後に、この分野におけるいくつかの課題と今後の方向性を強調します。本調査を通じて,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目標にしている。

関連論文リスト

Context-aware Biases for Length Extrapolation [0.0]
長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。入力シーケンスに基づいて位置バイアスを動的に調整することにより、CABLEは固定されたRPEの剛性を克服する。提案手法はFineWeb-Edu10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-03-11T05:54:58Z)
DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。 DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文参考訳（メタデータ） (2024-06-20T17:40:18Z)
Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。 RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文参考訳（メタデータ） (2024-06-19T07:23:33Z)
Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。位置符号化を伴わない変圧器長一般化特性について検討する。 NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文参考訳（メタデータ） (2024-04-18T14:38:32Z)
Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文参考訳（メタデータ） (2024-02-14T18:18:29Z)
On the Resurgence of Recurrent Models for Long Sequences -- Survey and Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文参考訳（メタデータ） (2024-02-12T23:55:55Z)
Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models [17.300251335326173]
大規模言語モデル(LLM)は、コンテキストの理解、論理的推論への関与、応答の生成など、優れた機能を示している。本調査は,LLMの配列長を拡張するために考案された最近の手法と手法の包括的レビューを提供する。
論文参考訳（メタデータ） (2024-02-03T19:20:02Z)
Exploring Transformer Extrapolation [19.729619149887014]
長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年、かなりの注目を集めている。従来の研究では、慎重に設計された相対位置コーパスを用いることで、この特性を達成できることが示されている。本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。
論文参考訳（メタデータ） (2023-07-19T17:37:03Z)
Dissecting Transformer Length Extrapolation via the Lens of Receptive Field Analysis [72.71398034617607]
我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
論文参考訳（メタデータ） (2022-12-20T15:40:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。