論文の概要: CLEX: Continuous Length Extrapolation for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.16450v1
- Date: Wed, 25 Oct 2023 08:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:57:25.424323
- Title: CLEX: Continuous Length Extrapolation for Large Language Models
- Title(参考訳): CLEX:大規模言語モデルのための連続長外挿法
- Authors: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
- Abstract要約: Transformer-based Large Language Models (LLM) は多くの自然言語処理タスクにおいて先駆的な進歩を遂げている。
位置埋め込み(PE)スケーリング手法は、コンテキストウィンドウを特定の長さに拡張するのに有効であるが、顕著な制限を示す。
長さ外挿法は、理論的にはトレーニングシーケンス長を超えてコンテキストウィンドウを拡張することができるが、実際的なロングコンテキスト応用では性能が劣ることが多い。
- 参考スコア(独自算出の注目度): 73.42358207653315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.
- Abstract(参考訳): トランスフォーマティブベースの大規模言語モデル(llms)は、多くの自然言語処理タスクの先駆者であるが、その例外的な能力は、トランスフォーマの事前設定されたコンテキストウィンドウ内で制限されている。
位置埋め込み(PE)スケーリング手法は、コンテキストウィンドウを特定の長さに拡張するのに有効であるが、外挿能力の顕著な制限を示すか、コンテキストウィンドウ内の部分的なパフォーマンスを犠牲にする。
長さ外挿法は、理論的にはトレーニングシーケンス長を超えてコンテキストウィンドウを拡張することができるが、実際的なロングコンテキスト応用では性能が劣ることが多い。
これらの課題に対処するため,LLMのためのCLEX(Continuous Length Extrapolation)を提案する。
PEスケーリング手法を一般化し、長さスケーリング係数上の常微分方程式による連続力学をモデル化することにより、特定の長さのために設計された現在のPEスケーリング手法の制約を克服する。
さらに、動的をトレーニングシーケンス長を超えて所望のコンテキスト長に拡張することにより、CLEXは、実用的なタスクにおいて印象的なパフォーマンスを持つ長さ外挿を容易にする。
CLEX は LLaMA や GPT-NeoX などのロータリー位置埋め込み機能を備えた LLM にシームレスに組み込むことができ、トレーニングや推論の遅延にほとんど影響しない。
実験の結果,CLEXはコンテキストウィンドウを4倍,約8倍のトレーニング長に効果的に拡張できることがわかった。
さらに,実用的LongBenchベンチマークで評価すると,4k長でトレーニングしたモデルは,32k長までの文脈でトレーニングした最先端のオープンソースモデルに対して,競合性能を示す。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。