論文の概要: PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training
- arxiv url: http://arxiv.org/abs/2309.10400v1
- Date: Tue, 19 Sep 2023 08:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 15:46:02.519985
- Title: PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training
- Title(参考訳): PoSE: 位置的スキップワイドトレーニングによるLLMの効率的なコンテキストウィンドウ拡張
- Authors: Dawei Zhu and Nan Yang and Liang Wang and Yifan Song and Wenhao Wu and
Furu Wei and Sujian Li
- Abstract要約: 大規模言語モデル(LLM)を極端に長いコンテキストウインドウに効率よく適応させるために,位置的スキップ・ウィス(PoSE)トレーニングを導入する。
PoSEは、トレーニング中に位置インデックスが操作された固定されたコンテキストウィンドウを使用して、長い入力をシミュレートすることで、ターゲットのコンテキストウィンドウサイズから列車の長さを分離する。
実験によると、完全な長さの微調整と比較して、PoSEはメモリと時間のオーバーヘッドを大幅に減らし、パフォーマンスに最小限の影響を与える。
- 参考スコア(独自算出の注目度): 91.99700930388998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Positional Skip-wisE (PoSE) training for
efficient adaptation of large language models~(LLMs) to extremely long context
windows. PoSE decouples train length from target context window size by
simulating long inputs using a fixed context window with manipulated position
indices during training. Concretely, we select several short chunks from a long
input sequence, and introduce distinct skipping bias terms to modify the
position indices of each chunk. These bias terms, along with the length of each
chunk, are altered for each training example, allowing the model to adapt to
all positions within the target context window without training on full length
inputs. Experiments show that, compared with fine-tuning on the full length,
PoSE greatly reduces memory and time overhead with minimal impact on
performance. Leveraging this advantage, we have successfully extended the LLaMA
model to 128k tokens. Furthermore, we empirically confirm that PoSE is
compatible with all RoPE-based LLMs and various position interpolation
strategies. Notably, by decoupling fine-tuning length from target context
window, PoSE can theoretically extend the context window infinitely,
constrained only by memory usage for inference. With ongoing advancements for
efficient inference, we believe PoSE holds great promise for scaling the
context window even further.
- Abstract(参考訳): 本稿では,大規模言語モデル~〜(LLM)を極めて長いコンテキストウインドウに効率的に適応するためのPoSEトレーニングを紹介する。
PoSEは、トレーニング中に位置インデックスが操作された固定されたコンテキストウィンドウを使用して長い入力をシミュレートすることで、ターゲットコンテキストウィンドウサイズから列車の長さを分離する。
具体的には、長い入力シーケンスからいくつかの短いチャンクを選択し、各チャンクの位置指標を変更するために異なるスキップバイアス項を導入する。
これらのバイアス項は、各チャンクの長さとともに、トレーニング例ごとに変更され、モデルが完全な長さの入力をトレーニングすることなく、ターゲットコンテキストウィンドウ内のすべての位置に適応することができる。
実験によると、完全な長さの微調整と比較して、PoSEはメモリと時間のオーバーヘッドを大幅に減らし、パフォーマンスに最小限の影響を与える。
この利点を利用して、LLaMAモデルを128kトークンに拡張しました。
さらに,PoSE が全ての RoPE ベースの LLM および様々な位置補間戦略と互換性があることを実証的に確認した。
特に、ターゲットのコンテキストウィンドウから微調整の長さを分離することで、PoSEは理論的にコンテキストウィンドウを無限に拡張することができる。
効率的な推論の進歩が進行中であるので、PoSEはコンテキストウィンドウをさらにスケールする大きな可能性を秘めています。
関連論文リスト
- LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Parallel Context Windows for Large Language Models [52.965170346907904]
本稿では,PCW(Parallel Context Windows)について述べる。
本研究の主な成果は,7億5000万から1億7800億のパラメータのモデルを用いて,テキスト内学習におけるPCWアプローチを検証した。
長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。
論文 参考訳(メタデータ) (2022-12-21T11:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。