論文の概要: PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training
- arxiv url: http://arxiv.org/abs/2309.10400v3
- Date: Wed, 21 Feb 2024 13:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:30:45.671832
- Title: PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training
- Title(参考訳): PoSE: 位置的スキップワイドトレーニングによるLLMの効率的なコンテキストウィンドウ拡張
- Authors: Dawei Zhu and Nan Yang and Liang Wang and Yifan Song and Wenhao Wu and
Furu Wei and Sujian Li
- Abstract要約: 固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
- 参考スコア(独自算出の注目度): 91.99700930388998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are trained with a pre-defined context length,
restricting their use in scenarios requiring long inputs. Previous efforts for
adapting LLMs to a longer length usually requires fine-tuning with this target
length (Full-length fine-tuning), suffering intensive training cost. To
decouple train length from target length for efficient context window
extension, we propose Positional Skip-wisE (PoSE) training that smartly
simulates long inputs using a fixed context window. This is achieved by first
dividing the original context window into several chunks, then designing
distinct skipping bias terms to manipulate the position indices of each chunk.
These bias terms and the lengths of each chunk are altered for every training
example, allowing the model to adapt to all positions within target length.
Experimental results show that PoSE greatly reduces memory and time overhead
compared with Full-length fine-tuning, with minimal impact on performance.
Leveraging this advantage, we have successfully extended the LLaMA model to
128k tokens using a 2k training context window. Furthermore, we empirically
confirm that PoSE is compatible with all RoPE-based LLMs and position
interpolation strategies. Notably, our method can potentially support infinite
length, limited only by memory usage in inference. With ongoing progress for
efficient inference, we believe PoSE can further scale the context window
beyond 128k.
- Abstract(参考訳): 大きな言語モデル(LLM)は、定義済みのコンテキスト長でトレーニングされ、長い入力を必要とするシナリオでの使用を制限する。
LLMをより長い長さに適合させるためには、通常、この目標長(フル長の微調整)で細調整する必要がある。
列車長を目標長から切り離して効率的なコンテキストウィンドウ拡張を行うため,固定されたコンテキストウィンドウを用いて長い入力をスマートにシミュレートするポジショナル・スキップ・ウィス(PoSE)トレーニングを提案する。
これは、最初に元のコンテキストウィンドウをいくつかのチャンクに分割することで実現され、次に各チャンクの位置インデックスを操作するために個別のスキップバイアス項を設計する。
これらのバイアス項と各チャンクの長さはトレーニング例ごとに変更され、モデルがターゲット長内のすべての位置に対応することができる。
実験結果から,PoSEはフル長微調整に比べてメモリと時間オーバーヘッドを大幅に低減し,性能への影響は最小限であった。
この利点を利用して、2kのトレーニングコンテキストウィンドウを使用してLLaMAモデルを128kトークンに拡張しました。
さらに,PoSE が全ての RoPE ベースの LLM および位置補間戦略と互換性があることを実証的に確認した。
特に、この手法は無限長のサポートが可能であり、推論におけるメモリ使用量によってのみ制限される。
効率的な推論の進行中の進歩により、PoSEは128kを超えるコンテキストウィンドウをさらに拡張できると考えています。
関連論文リスト
- LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - CLEX: Continuous Length Extrapolation for Large Language Models [73.42358207653315]
Transformer-based Large Language Models (LLM) は多くの自然言語処理タスクにおいて先駆的な進歩を遂げている。
位置埋め込み(PE)スケーリング手法は、コンテキストウィンドウを特定の長さに拡張するのに有効であるが、顕著な制限を示す。
長さ外挿法は、理論的にはトレーニングシーケンス長を超えてコンテキストウィンドウを拡張することができるが、実際的なロングコンテキスト応用では性能が劣ることが多い。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Parallel Context Windows for Large Language Models [52.965170346907904]
本稿では,PCW(Parallel Context Windows)について述べる。
本研究の主な成果は,7億5000万から1億7800億のパラメータのモデルを用いて,テキスト内学習におけるPCWアプローチを検証した。
長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。
論文 参考訳(メタデータ) (2022-12-21T11:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。