Fugu-MT 論文翻訳(概要): LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management

論文の概要: LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management

arxiv url: http://arxiv.org/abs/2410.00428v3
Date: Wed, 9 Oct 2024 11:40:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 05:36:46.246249
Title: LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management
Title（参考訳）: LayerKV: レイヤワイドKVキャッシュ管理による大規模言語モデルの最適化
Authors: Yi Xiong, Hao Wu, Changxu Shao, Ziqing Wang, Rui Zhang, Yuhong Guo, Junping Zhao, Ke Zhang, Zhenxuan Pan,
Abstract要約: ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
参考スコア（独自算出の注目度）: 23.431794605498084
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるコンテキストウィンドウの拡張は、様々なアプリケーションにおけるその機能を大幅に強化しているが、特にTTFT(Time to First Token)において、低レイテンシを維持する上での重大な課題も導入している。本稿では、コンテキスト長の増加に伴うTTFTの急激な増加は、KVキャッシュブロックの限られた可用性と相反するGPUキーバリュー(KV)キャッシュ割り当ての需要の増加に起因する遅延の待ち行列によって主に引き起こされることを示す。そこで本研究では,既存の並列処理戦略やスケジューリング手法をシームレスに統合しながら,ハードウェアの追加や出力性能の向上を必要とせず,TTFTを効果的に削減する,シンプルかつ効果的なプラグイン手法であるLayerKVを提案する。具体的には、レイヤワイドなKVブロック割り当て、管理、システムメモリのきめ細かい制御のためのオフロード、サービスレベルオブジェクト(SLO)全体を最適化するSLO対応スケジューラが導入されている。様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、LayerKVがTTFTレイテンシを最大69倍改善し、SLO違反率を28.7%削減し、ユーザエクスペリエンスを大幅に向上させることを示した。

関連論文リスト

Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models [8.944739362562494]
既存のKVキャッシュ消去戦略は、視覚トークンとテキストトークンの間の不均一な注意分布に対処できない。 MLLMにおけるテキスト-視覚トークンの相互作用を最適化するKVキャッシュ消去フレームワークである階層適応消去(HAE)を提案する。 HAEは層間のKVキャッシュ使用を最小化し、インデックスブロードキャストによる計算オーバーヘッドを低減し、理論的には優れた情報完全性と低いエラー境界を保証する。
論文参考訳（メタデータ） (2026-02-02T15:01:44Z)
ORBITFLOW: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration [1.2879848319971192]
KVキャッシュをホストメモリにオフロードすることは、効果的なメモリ使用量を制限する。本稿では,細粒度かつ適応的なKVキャッシュ管理システムORBITFLOWを紹介する。実験の結果,ORBITFLOWはTPOTとTBTのSLO達成率を最大66%,TBTは48%向上した。
論文参考訳（メタデータ） (2026-01-05T04:02:34Z)
From Tokens to Layers: Redefining Stall-Free Scheduling for LLM Serving with Layered Prefill [8.04085002818041]
大規模言語モデル(LLM)は、TTFT(Time-to-first-token)とTBT(Time-between-token)の両方に対して、厳密なサービスレベル目標を満たす必要がある。現代のサービスシステムでは、チャンクプリフィルのようなストールフリーなスケジューリング技術を採用している。本稿では,トランスフォーマ層群を主スケジューリング単位として扱う新しいスケジューリングパラダイムであるLayered Prefillを提案する。
論文参考訳（メタデータ） (2025-10-09T10:41:35Z)
FineServe: Precision-Aware KV Slab and Two-Level Scheduling for Heterogeneous Precision LLM Serving [2.141726730716452]
FineServeは、混合精度の大規模言語モデルのための推論機能フレームワークである。 FineServeは、最先端のGPU共有システムと比較して最大2.2倍のSLO達成率と1.8倍のトークン生成スループットを実現している。
論文参考訳（メタデータ） (2025-09-08T00:57:50Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs [5.02504911036896]
最近の大規模言語モデル(LLM)は、入力コンテキストの長さとモデルサイズが大きくなるにつれて、推論遅延が増加する。本稿では,ディスクベースのキー値(KV)キャッシュを利用して,プリフィル時の計算負担を軽減することによるTTFT削減手法を提案する。また、マルチインスタンスLLM RAGサービス環境のためのディスクベースの共有KVキャッシュ管理システムであるShared RAG-DCacheを導入する。
論文参考訳（メタデータ） (2025-04-16T04:59:18Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling [10.298476019491146]
Flow KVは非凝集型推論フレームワークである。これにより、KVキャッシュの平均伝送遅延を0.944sから0.053sに96%削減できる。これは、通常、計算の不均衡、極端な過負荷条件など、様々なシナリオでピークシステムのスループットを達成する。
論文参考訳（メタデータ） (2025-04-03T08:58:05Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。 InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。 InstInferがロングシーケンス推論のためのスループットを改善
論文参考訳（メタデータ） (2024-09-08T06:06:44Z)
Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs [1.5503410315996757]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著な機能を示している。しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要としている。本稿では,新しいパラメータ効率細調整(PEFT)手法であるTrain Low-Rank Approximation (TT-LoRA)を紹介する。
論文参考訳（メタデータ） (2024-08-02T04:45:58Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文参考訳（メタデータ） (2023-05-15T22:04:49Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。