論文の概要: Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis
- arxiv url: http://arxiv.org/abs/2405.08944v1
- Date: Tue, 14 May 2024 20:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:55:25.154960
- Title: Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis
- Title(参考訳): 長期変換器の展開における課題:理論的ピーク性能分析
- Authors: Yao Fu,
- Abstract要約: トランスフォーマーベースのロングコンテキスト生成モデルは、時間単位のビデオ理解やプロジェクトレベルのコーディングエージェントといった、新たなAIアプリケーションを動かす。
長いコンテキスト変換器(例:100Kから10Mトークン)の配置は、短いコンテキスト(例:4Kトークン)モデルと比較すると、非常に高価である。
長文トランスのコスト削減は、2024年以降、研究とエンジニアリングの難題となっている。
- 参考スコア(独自算出の注目度): 20.670284875650303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based long context generative models power emerging AI applications like hour-long video understanding and project-level coding agent. Deploying long context transformers (e.g., 100K to 10M tokens) is prohibitively expensive compared to short context (e.g., 4K tokens) model variants. Reducing the cost of long-context transformers is becoming a pressing research and engineering challenge starting from the year of 2024. This work describes a concurrent programming framework for quantitatively analyzing the efficiency challenges in serving multiple long-context requests under limited size of GPU high-bandwidth memory (HBM) regime. We give a detailed analysis of how all additional computational costs, compared to 4K context, trace back to \textit{one single source: the large size of the KV cache}. We use a 34B GPT-3.5 level model of 50K context on A100 NVLink as a running example, and describe how its large KV cache causes four types of deployment challenges: (1) prefilling long inputs takes much longer compute time and GPU memory than short inputs; (2) after prefilling, the large KV cache residing on the GPU HBM substantially restricts the number of concurrent users being served; (3) during decoding, repeatedly reading the KV cache from HBM to SM largely increases latency; (4) when KV cache memory overflows, swapping it from HBM to DDR causes significant context switching latency. We use this framework to analyze existing works and identify possibilities of combining them to build end-to-end systems. Overall, this work offers a foundational framework for analyzing long context transformer deployment and identifies directions towards reducing the inference cost of 1M context to be as cheap as 4K.
- Abstract(参考訳): トランスフォーマーベースのロングコンテキスト生成モデルは、時間単位のビデオ理解やプロジェクトレベルのコーディングエージェントといった、新たなAIアプリケーションを動かす。
長いコンテキストトランスフォーマー(例:100Kから10Mトークン)のデプロイは、短いコンテキスト(例:4Kトークン)モデルと比較すると、極めて高価である。
長文トランスのコスト削減は、2024年から始まった研究とエンジニアリングの難題になりつつある。
この研究は、GPU高帯域メモリ(HBM)の限られたサイズで複数の長コンテキスト要求を処理する際の効率上の課題を定量的に分析するための並列プログラミングフレームワークについて述べる。
計算コストを4Kのコンテキストと比較すると,KVキャッシュの大きさであるtextit{oneの単一ソースに遡る。
我々は、A100 NVLink上の50Kコンテキストの34B GPT-3.5レベルモデルを使用し、その大きなKVキャッシュが、(1)長い入力のプリフィルが短い入力よりもはるかに長い計算時間とGPUメモリを必要とすること、(2)GPU HBMに格納されている大きなKVキャッシュが、並列ユーザ数を大幅に制限すること、(3)デコード中、HBMからSMへのKVキャッシュの繰り返し読み込みが遅延を大幅に増加すること、(4)KVキャッシュのオーバーフローがHBMからDDRに切り替わることによって、大きなコンテキスト切替遅延が発生すること、の4つのタイプのデプロイメント課題を説明している。
このフレームワークを使用して、既存の作業を分析し、それらを組み合わせてエンドツーエンドシステムを構築する可能性を特定します。
全体として、この研究は長期のコンテクストトランスフォーマーデプロイメントを分析するための基本的なフレームワークを提供し、1Mコンテキストの推論コストを4K以下に抑えるための方向性を特定する。
関連論文リスト
- SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation [32.62031120968721]
本稿では,プロンプトトークン処理の時間とコストを削減するために特別に設計されたモデル変換・蒸留手法であるSwiftKVを提案する。
Llama-3.1-8Bと70Bでは、SwiftKVはプリフィルの計算要求を50%削減し、KVキャッシュのメモリ要求を62.5%削減した。
16ビット精度でLlama-3.1-70Bの16Kトークン/sに変換する通常の推論スループットの560 TFlops/GPUを実現することができる。
論文 参考訳(メタデータ) (2024-10-04T22:45:26Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads [30.690302709678758]
Locretは、単一のNvidia 4090 GPU上でのLLM推論のためのフレームワークである。
推論中、チャンクされたプリフィルパターンとともに低重要キャッシュユニットを排除し、GPUのピークメモリ使用量を大幅に削減した。
我々の知る限り、Locretは単一のNvidia 4090 GPU上にLlama-3.1-8Bまたは同様のモデルをデプロイできる最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - Boost Vision Transformer with GPU-Friendly Sparsity and Quantization [29.96026533220083]
本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。
実験結果によると、GPUSQ-ViT方式は、モデルサイズが6.4-12.7倍、FLOPが30.3-62倍のビジョントランスフォーマーモデルを減らし、最先端の圧縮を実現する。
論文 参考訳(メタデータ) (2023-05-18T05:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。