論文の概要: A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts
- arxiv url: http://arxiv.org/abs/2410.01485v1
- Date: Wed, 2 Oct 2024 12:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:34:40.157752
- Title: A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts
- Title(参考訳): 長い道のり:部分的文脈による効率的な長期学習と推論
- Authors: Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng,
- Abstract要約: LongGenは、事前訓練されたLLMを、長さ拡張中に効率的なアーキテクチャに微調整する。
LongGenはトレーニングのスピードアップを1.55倍にし、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。
推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。
- 参考スコア(独自算出の注目度): 38.867323730365406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training and serving long-context large language models (LLMs) incurs substantial overhead. To address this, two critical steps are often required: a pretrained LLM typically undergoes a separate stage for context length extension by training on long-context data, followed by architectural modifications to reduce the overhead of KV cache during serving. This paper argues that integrating length extension with a GPU-friendly KV cache reduction architecture not only reduces training overhead during length extension, but also achieves better long-context performance. This leads to our proposed LongGen, which finetunes a pretrained LLM into an efficient architecture during length extension. LongGen builds on three key insights: (1) Sparse attention patterns, such as window attention (attending to recent tokens), attention sink (initial ones), and blockwise sparse attention (strided token blocks) are well-suited for building efficient long-context models, primarily due to their GPU-friendly memory access patterns, enabling efficiency gains not just theoretically but in practice as well. (2) It is essential for the model to have direct access to all tokens. A hybrid architecture with 1/3 full attention layers and 2/3 efficient ones achieves a balanced trade-off between efficiency and long-context performance. (3) Lightweight training on 5B long-context data is sufficient to extend the hybrid model's context length from 4K to 128K. We evaluate LongGen on both Llama-2 7B and Llama-2 70B, demonstrating its effectiveness across different scales. During training with 128K-long contexts, LongGen achieves 1.55x training speedup and reduces wall-clock time by 36%, compared to a full-attention baseline. During inference, LongGen reduces KV cache memory by 62%, achieving 1.67x prefilling speedup and 1.41x decoding speedup.
- Abstract(参考訳): LLM(long-context large language model)のトレーニングと提供は、かなりのオーバーヘッドを引き起こす。
事前訓練されたLCMは、長いコンテキストデータでトレーニングすることでコンテキスト長拡張のための別々の段階を経、その後、サービス中のKVキャッシュのオーバーヘッドを減らすためにアーキテクチャの変更が行われる。
本稿では,GPUフレンドリなKVキャッシュ削減アーキテクチャと長さ拡張を統合することで,長さ拡張時のトレーニングオーバーヘッドを低減できるだけでなく,長文性能も向上する。
これによりLongGenが提案され、LongGenはトレーニング済みのLLMを長さ拡張中に効率的なアーキテクチャに微調整する。
ウィンドウアテンション(最近のトークン)、アテンションシンク(初期トークン)、ブロックワイズアテンション(ストリップトークンブロック)といったスパースアテンションパターンは、GPUフレンドリーなメモリアクセスパターンのために、効率的なロングコンテキストモデルを構築するのに適しています。
2) モデルがすべてのトークンに直接アクセスすることが不可欠である。
1/3の注意層と2/3の効率のよいハイブリッドアーキテクチャは、効率性と長文のパフォーマンスのバランスのとれたトレードオフを実現する。
3)5B長コンテキストデータの軽量トレーニングは,ハイブリッドモデルのコンテキスト長を4Kから128Kに拡張するのに十分である。
Llama-2 7BとLlama-2 70Bの両方でLongGenを評価し,その有効性を示した。
128Kのコンテキストでのトレーニングでは、LongGenはトレーニング速度を1.55倍に向上し、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。
推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。
関連論文リスト
- DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads [22.462489968597]
すべての注目ヘッドにキーとバリューの状態をキャッシュすると、かなりのメモリが消費される。
我々は,ストリーミングヘッドに軽量で一定長のKVキャッシュを使用しながら,全KVキャッシュのみを検索ヘッドに適用するフレームワークであるDuoAttentionを紹介する。
GQAモデルでは,MHAでは2.55倍,GQAでは1.67倍の長文推論メモリが大幅に削減される。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。