論文の概要: Length Extrapolation of Transformers: A Survey from the Perspective of
Position Encoding
- arxiv url: http://arxiv.org/abs/2312.17044v2
- Date: Fri, 29 Dec 2023 02:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:06:29.953173
- Title: Length Extrapolation of Transformers: A Survey from the Perspective of
Position Encoding
- Title(参考訳): 変圧器の長さ外挿:位置符号化の観点から
- Authors: Liang Zhao, Xiaocheng Feng, Xiachong Feng, Bing Qin, Ting Liu
- Abstract要約: Transformerは、シークエンスにおける複雑な依存関係をモデル化する優れた能力のため、誕生以来、自然言語処理(NLP)の分野を嵐によって捉えてきた。
ほとんどすべての NLP タスクで Transformer をベースとした事前訓練型言語モデル (PLM) が大きな成功を収めたにもかかわらず、これらはすべてプリセットされた長さ制限に悩まされている。
長さ外挿は、人間の言語能力の中核的な特徴であるため、研究者の間で大きな関心を集めている。
- 参考スコア(独自算出の注目度): 45.05332500677691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has taken the natural language processing (NLP) field by storm
since birth, owing to its superior ability to model complex dependencies in
sequences. Despite the great success of pretrained language models (PLMs) based
on Transformer across almost all NLP tasks, they all suffer from a preset
length limit and thus can hardly extend this success to longer sequences beyond
seen data, namely the length extrapolation problem. Length extrapolation has
aroused great interest among researchers, as it is the core feature of human
language capacity. To enhance length extrapolation of Transformers, a plethora
of methods have been proposed, mostly focusing on extrapolatable position
encodings. In this article, we provide an organized and systematical review of
these research efforts in a unified notation from a position encoding
perspective, aiming to enable the reader to gain a deep understanding of
existing methods and provide stimuli for future research.
- Abstract(参考訳): Transformerは、シークエンスにおける複雑な依存関係をモデル化する優れた能力のため、誕生以来、自然言語処理(NLP)の分野を嵐によって捉えてきた。
ほぼ全てのnlpタスクにおけるトランスフォーマーに基づく事前学習言語モデル(plms)の成功にもかかわらず、それらはすべて事前設定された長さ制限に苦しめられており、この成功は、見かけのデータを超えた長いシーケンス、すなわち長さの補間問題にまで拡張することができない。
長さ外挿は人間の言語能力の中核的な特徴であるため、研究者の間で大きな関心を集めている。
トランスフォーマーの長さ外挿を強化するため,多くの手法が提案され,主に外挿可能な位置符号化に焦点が当てられている。
本稿では,既存の手法をより深く理解し,今後の研究に刺激を与えることを目的として,位置符号化の観点から,これらの研究成果を統一的な表記法として整理的かつ体系的に検討する。
関連論文リスト
- DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。
位置符号化を伴わない変圧器長一般化特性について検討する。
NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文 参考訳(メタデータ) (2024-04-18T14:38:32Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - On the Resurgence of Recurrent Models for Long Sequences -- Survey and
Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。
長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文 参考訳(メタデータ) (2024-02-12T23:55:55Z) - Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models [17.300251335326173]
大規模言語モデル(LLM)は、コンテキストの理解、論理的推論への関与、応答の生成など、優れた機能を示している。
本調査は,LLMの配列長を拡張するために考案された最近の手法と手法の包括的レビューを提供する。
論文 参考訳(メタデータ) (2024-02-03T19:20:02Z) - Exploring Transformer Extrapolation [19.729619149887014]
長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年、かなりの注目を集めている。
従来の研究では、慎重に設計された相対位置コーパスを用いることで、この特性を達成できることが示されている。
本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。
論文 参考訳(メタデータ) (2023-07-19T17:37:03Z) - Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis [72.71398034617607]
我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。
バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
論文 参考訳(メタデータ) (2022-12-20T15:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。