Fugu-MT 論文翻訳(概要): Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis

論文の概要: Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis

arxiv url: http://arxiv.org/abs/2405.08944v1
Date: Tue, 14 May 2024 20:17:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 14:55:25.154960
Title: Challenges in Deploying Long-Context Transformers: A Theoretical Peak Performance Analysis
Title（参考訳）: 長期変換器の展開における課題:理論的ピーク性能分析
Authors: Yao Fu,
Abstract要約: トランスフォーマーベースのロングコンテキスト生成モデルは、時間単位のビデオ理解やプロジェクトレベルのコーディングエージェントといった、新たなAIアプリケーションを動かす。長いコンテキスト変換器(例:100Kから10Mトークン)の配置は、短いコンテキスト(例:4Kトークン)モデルと比較すると、非常に高価である。長文トランスのコスト削減は、2024年以降、研究とエンジニアリングの難題となっている。
参考スコア（独自算出の注目度）: 20.670284875650303
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based long context generative models power emerging AI applications like hour-long video understanding and project-level coding agent. Deploying long context transformers (e.g., 100K to 10M tokens) is prohibitively expensive compared to short context (e.g., 4K tokens) model variants. Reducing the cost of long-context transformers is becoming a pressing research and engineering challenge starting from the year of 2024. This work describes a concurrent programming framework for quantitatively analyzing the efficiency challenges in serving multiple long-context requests under limited size of GPU high-bandwidth memory (HBM) regime. We give a detailed analysis of how all additional computational costs, compared to 4K context, trace back to \textit{one single source: the large size of the KV cache}. We use a 34B GPT-3.5 level model of 50K context on A100 NVLink as a running example, and describe how its large KV cache causes four types of deployment challenges: (1) prefilling long inputs takes much longer compute time and GPU memory than short inputs; (2) after prefilling, the large KV cache residing on the GPU HBM substantially restricts the number of concurrent users being served; (3) during decoding, repeatedly reading the KV cache from HBM to SM largely increases latency; (4) when KV cache memory overflows, swapping it from HBM to DDR causes significant context switching latency. We use this framework to analyze existing works and identify possibilities of combining them to build end-to-end systems. Overall, this work offers a foundational framework for analyzing long context transformer deployment and identifies directions towards reducing the inference cost of 1M context to be as cheap as 4K.
Abstract（参考訳）: トランスフォーマーベースのロングコンテキスト生成モデルは、時間単位のビデオ理解やプロジェクトレベルのコーディングエージェントといった、新たなAIアプリケーションを動かす。長いコンテキストトランスフォーマー(例:100Kから10Mトークン)のデプロイは、短いコンテキスト(例:4Kトークン)モデルと比較すると、極めて高価である。長文トランスのコスト削減は、2024年から始まった研究とエンジニアリングの難題になりつつある。この研究は、GPU高帯域メモリ(HBM)の限られたサイズで複数の長コンテキスト要求を処理する際の効率上の課題を定量的に分析するための並列プログラミングフレームワークについて述べる。計算コストを4Kのコンテキストと比較すると,KVキャッシュの大きさであるtextit{oneの単一ソースに遡る。我々は、A100 NVLink上の50Kコンテキストの34B GPT-3.5レベルモデルを使用し、その大きなKVキャッシュが、(1)長い入力のプリフィルが短い入力よりもはるかに長い計算時間とGPUメモリを必要とすること、(2)GPU HBMに格納されている大きなKVキャッシュが、並列ユーザ数を大幅に制限すること、(3)デコード中、HBMからSMへのKVキャッシュの繰り返し読み込みが遅延を大幅に増加すること、(4)KVキャッシュのオーバーフローがHBMからDDRに切り替わることによって、大きなコンテキスト切替遅延が発生すること、の4つのタイプのデプロイメント課題を説明している。このフレームワークを使用して、既存の作業を分析し、それらを組み合わせてエンドツーエンドシステムを構築する可能性を特定します。全体として、この研究は長期のコンテクストトランスフォーマーデプロイメントを分析するための基本的なフレームワークを提供し、1Mコンテキストの推論コストを4K以下に抑えるための方向性を特定する。

関連論文リスト

CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文参考訳（メタデータ） (2025-03-02T18:12:50Z)
RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
トレーニング不要なKVキャッシュ圧縮戦略であるRocketKVについて述べる。第1段階では、入力シーケンストークンに対して粗粒永久KVキャッシュ消去を行う。第2段階では、微粒のトップkスパースアテンションを行うために、ハイブリッドスパースアテンション方式を採用する。
論文参考訳（メタデータ） (2025-02-19T19:12:46Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation [32.62031120968721]
本稿では,プロンプトトークン処理の時間とコストを削減するために特別に設計されたモデル変換・蒸留手法であるSwiftKVを提案する。 Llama-3.1-8Bと70Bでは、SwiftKVはプリフィルの計算要求を50%削減し、KVキャッシュのメモリ要求を62.5%削減した。 16ビット精度でLlama-3.1-70Bの16Kトークン/sに変換する通常の推論スループットの560 TFlops/GPUを実現することができる。
論文参考訳（メタデータ） (2024-10-04T22:45:26Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads [30.690302709678758]
Locretは、単一のNvidia 4090 GPU上でのLLM推論のためのフレームワークである。推論中、チャンクされたプリフィルパターンとともに低重要キャッシュユニットを排除し、GPUのピークメモリ使用量を大幅に削減した。我々の知る限り、Locretは単一のNvidia 4090 GPU上にLlama-3.1-8Bまたは同様のモデルをデプロイできる最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-02T17:59:52Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
Boost Vision Transformer with GPU-Friendly Sparsity and Quantization [29.96026533220083]
本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。実験結果によると、GPUSQ-ViT方式は、モデルサイズが6.4-12.7倍、FLOPが30.3-62倍のビジョントランスフォーマーモデルを減らし、最先端の圧縮を実現する。
論文参考訳（メタデータ） (2023-05-18T05:55:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。