論文の概要: A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts
- arxiv url: http://arxiv.org/abs/2410.01485v2
- Date: Thu, 05 Dec 2024 06:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:40.061504
- Title: A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts
- Title(参考訳): 長い道のり:部分的文脈による効率的な長期学習と推論
- Authors: Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng,
- Abstract要約: LongGenは、事前訓練されたLLMを、長さ拡張中に効率的なアーキテクチャに微調整する。
LongGenはトレーニングのスピードアップを1.55倍にし、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。
推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。
- 参考スコア(独自算出の注目度): 38.867323730365406
- License:
- Abstract: Training and serving long-context large language models (LLMs) incurs substantial overhead. To address this, two critical steps are often required: a pretrained LLM typically undergoes a separate stage for context length extension by training on long-context data, followed by architectural modifications to reduce the overhead of KV cache during serving. This paper argues that integrating length extension with a GPU-friendly KV cache reduction architecture not only reduces training overhead during length extension, but also achieves better long-context performance. This leads to our proposed LongGen, which finetunes a pretrained LLM into an efficient architecture during length extension. LongGen builds on three key insights: (1) Sparse attention patterns, such as window attention (attending to recent tokens), attention sink (initial ones), and blockwise sparse attention (strided token blocks) are well-suited for building efficient long-context models, primarily due to their GPU-friendly memory access patterns, enabling efficiency gains not just theoretically but in practice as well. (2) It is essential for the model to have direct access to all tokens. A hybrid architecture with 1/3 full attention layers and 2/3 efficient ones achieves a balanced trade-off between efficiency and long-context performance. (3) Lightweight training on 5B long-context data is sufficient to extend the hybrid model's context length from 4K to 128K. We evaluate LongGen on both Llama-2 7B and Llama-2 70B, demonstrating its effectiveness across different scales. During training with 128K-long contexts, LongGen achieves 1.55x training speedup and reduces wall-clock time by 36%, compared to a full-attention baseline. During inference, LongGen reduces KV cache memory by 62%, achieving 1.67x prefilling speedup and 1.41x decoding speedup.
- Abstract(参考訳): LLM(long-context large language model)のトレーニングと提供は、かなりのオーバーヘッドを引き起こす。
事前訓練されたLCMは、長いコンテキストデータでトレーニングすることでコンテキスト長拡張のための別々の段階を経、その後、サービス中のKVキャッシュのオーバーヘッドを減らすためにアーキテクチャの変更が行われる。
本稿では,GPUフレンドリなKVキャッシュ削減アーキテクチャと長さ拡張を統合することで,長さ拡張時のトレーニングオーバーヘッドを低減できるだけでなく,長文性能も向上する。
これによりLongGenが提案され、LongGenはトレーニング済みのLLMを長さ拡張中に効率的なアーキテクチャに微調整する。
ウィンドウアテンション(最近のトークン)、アテンションシンク(初期トークン)、ブロックワイズアテンション(ストリップトークンブロック)といったスパースアテンションパターンは、GPUフレンドリーなメモリアクセスパターンのために、効率的なロングコンテキストモデルを構築するのに適しています。
2) モデルがすべてのトークンに直接アクセスすることが不可欠である。
1/3の注意層と2/3の効率のよいハイブリッドアーキテクチャは、効率性と長文のパフォーマンスのバランスのとれたトレードオフを実現する。
3)5B長コンテキストデータの軽量トレーニングは,ハイブリッドモデルのコンテキスト長を4Kから128Kに拡張するのに十分である。
Llama-2 7BとLlama-2 70Bの両方でLongGenを評価し,その有効性を示した。
128Kのコンテキストでのトレーニングでは、LongGenはトレーニング速度を1.55倍に向上し、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。
推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。
関連論文リスト
- LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention [26.54297116028556]
LServeは長周期言語モデルを高速化する効率的なシステムである。
ハードウェアフレンドリーで構造化されたスペーシングパターンを統一し、プリフィルとデコードの両方の注意を喚起する。
LServeはLLMプリフィルを最大2.9倍加速し、vLLMで1.3-2.1倍デコードする。
論文 参考訳(メタデータ) (2025-02-20T18:59:52Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
ParallelCompは、長文外挿のためのトレーニング不要のメソッドである。
コンテクスト長を4Kから128Kに拡張し、高いスループットを維持し、パープレキシティを保存する。
我々の分析は、並列注意機構における注意バイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - Adjoint sharding for very long context training of state space models [7.723642550918118]
随伴シャーディング(英: Adjoint sharding)は、訓練中のメモリ要求を桁違いに削減するシャーディング勾配計算を含む技法である。
提案手法は,1Mコンテキスト長トレーニングにおける1.27Bパラメータの大言語モデルを用いて,メモリ使用量を最大3倍に削減する。
これにより、トレーニング中の最大コンテキスト長を35Kトークンから5つのAWS P4インスタンスで構成されるトレーニングインフラストラクチャ上で100Kトークンに微調整することが可能になる。
論文 参考訳(メタデータ) (2025-01-01T01:10:59Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。