Fugu-MT 論文翻訳(概要): A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts

論文の概要: A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts

arxiv url: http://arxiv.org/abs/2410.01485v1
Date: Wed, 2 Oct 2024 12:35:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 17:34:40.157752
Title: A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts
Title（参考訳）: 長い道のり:部分的文脈による効率的な長期学習と推論
Authors: Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng,
Abstract要約: LongGenは、事前訓練されたLLMを、長さ拡張中に効率的なアーキテクチャに微調整する。 LongGenはトレーニングのスピードアップを1.55倍にし、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。
参考スコア（独自算出の注目度）: 38.867323730365406
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training and serving long-context large language models (LLMs) incurs substantial overhead. To address this, two critical steps are often required: a pretrained LLM typically undergoes a separate stage for context length extension by training on long-context data, followed by architectural modifications to reduce the overhead of KV cache during serving. This paper argues that integrating length extension with a GPU-friendly KV cache reduction architecture not only reduces training overhead during length extension, but also achieves better long-context performance. This leads to our proposed LongGen, which finetunes a pretrained LLM into an efficient architecture during length extension. LongGen builds on three key insights: (1) Sparse attention patterns, such as window attention (attending to recent tokens), attention sink (initial ones), and blockwise sparse attention (strided token blocks) are well-suited for building efficient long-context models, primarily due to their GPU-friendly memory access patterns, enabling efficiency gains not just theoretically but in practice as well. (2) It is essential for the model to have direct access to all tokens. A hybrid architecture with 1/3 full attention layers and 2/3 efficient ones achieves a balanced trade-off between efficiency and long-context performance. (3) Lightweight training on 5B long-context data is sufficient to extend the hybrid model's context length from 4K to 128K. We evaluate LongGen on both Llama-2 7B and Llama-2 70B, demonstrating its effectiveness across different scales. During training with 128K-long contexts, LongGen achieves 1.55x training speedup and reduces wall-clock time by 36%, compared to a full-attention baseline. During inference, LongGen reduces KV cache memory by 62%, achieving 1.67x prefilling speedup and 1.41x decoding speedup.
Abstract（参考訳）: LLM(long-context large language model)のトレーニングと提供は、かなりのオーバーヘッドを引き起こす。事前訓練されたLCMは、長いコンテキストデータでトレーニングすることでコンテキスト長拡張のための別々の段階を経、その後、サービス中のKVキャッシュのオーバーヘッドを減らすためにアーキテクチャの変更が行われる。本稿では,GPUフレンドリなKVキャッシュ削減アーキテクチャと長さ拡張を統合することで,長さ拡張時のトレーニングオーバーヘッドを低減できるだけでなく,長文性能も向上する。これによりLongGenが提案され、LongGenはトレーニング済みのLLMを長さ拡張中に効率的なアーキテクチャに微調整する。ウィンドウアテンション(最近のトークン)、アテンションシンク(初期トークン)、ブロックワイズアテンション(ストリップトークンブロック)といったスパースアテンションパターンは、GPUフレンドリーなメモリアクセスパターンのために、効率的なロングコンテキストモデルを構築するのに適しています。 2) モデルがすべてのトークンに直接アクセスすることが不可欠である。 1/3の注意層と2/3の効率のよいハイブリッドアーキテクチャは、効率性と長文のパフォーマンスのバランスのとれたトレードオフを実現する。 3)5B長コンテキストデータの軽量トレーニングは,ハイブリッドモデルのコンテキスト長を4Kから128Kに拡張するのに十分である。 Llama-2 7BとLlama-2 70Bの両方でLongGenを評価し,その有効性を示した。 128Kのコンテキストでのトレーニングでは、LongGenはトレーニング速度を1.55倍に向上し、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。

関連論文リスト

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention [26.54297116028556]
大規模言語モデル(LLM)は、長いシーケンスや複雑な推論タスクの処理において顕著な可能性を示している。 LServeは,ハイブリッドスパースアテンションにより長周期LLMサービスを高速化する,効率的なシステムである。 LServeはLLMプリフィルを最大2.9倍加速し、vLLMで1.3-2.1倍デコードする。
論文参考訳（メタデータ） (2025-02-20T18:59:52Z)
ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
ParallelCompは、長文外挿のためのトレーニング不要のメソッドである。コンテクスト長を4Kから128Kに拡張し、高いスループットを維持し、パープレキシティを保存する。我々の分析は、並列注意機構における注意バイアスに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-02-20T07:10:43Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
Adjoint sharding for very long context training of state space models [7.723642550918118]
随伴シャーディング(英: Adjoint sharding)は、訓練中のメモリ要求を桁違いに削減するシャーディング勾配計算を含む技法である。提案手法は,1Mコンテキスト長トレーニングにおける1.27Bパラメータの大言語モデルを用いて,メモリ使用量を最大3倍に削減する。これにより、トレーニング中の最大コンテキスト長を35Kトークンから5つのAWS P4インスタンスで構成されるトレーニングインフラストラクチャ上で100Kトークンに微調整することが可能になる。
論文参考訳（メタデータ） (2025-01-01T01:10:59Z)
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads [22.462489968597]
すべての注目ヘッドにキーとバリューの状態をキャッシュすると、かなりのメモリが消費される。我々は,ストリーミングヘッドに軽量で一定長のKVキャッシュを使用しながら,全KVキャッシュのみを検索ヘッドに適用するフレームワークであるDuoAttentionを紹介する。 GQAモデルでは,MHAでは2.55倍,GQAでは1.67倍の長文推論メモリが大幅に削減される。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。 LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文参考訳（メタデータ） (2024-08-31T17:19:30Z)
Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-27T12:39:23Z)
E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文参考訳（メタデータ） (2024-01-13T02:11:20Z)
LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。 7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文参考訳（メタデータ） (2023-09-21T17:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。