論文の概要: FineServe: Precision-Aware KV Slab and Two-Level Scheduling for Heterogeneous Precision LLM Serving
- arxiv url: http://arxiv.org/abs/2509.06261v1
- Date: Mon, 08 Sep 2025 00:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.92536
- Title: FineServe: Precision-Aware KV Slab and Two-Level Scheduling for Heterogeneous Precision LLM Serving
- Title(参考訳): FineServe: 高精度KVスラブと2レベルスケジューリング
- Authors: Kyungmin Bin, Seungbeom Choi, Jimyoung Son, Jieun Choi, Daseul Bae, Daehyeon Baek, Kihyo Moon, Minsung Jang, Hyojung Lee,
- Abstract要約: FineServeは、混合精度の大規模言語モデルのための推論機能フレームワークである。
FineServeは、最先端のGPU共有システムと比較して最大2.2倍のSLO達成率と1.8倍のトークン生成スループットを実現している。
- 参考スコア(独自算出の注目度): 2.141726730716452
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Post-Training Quantization (PTQ) techniques have significantly increased demand for serving quantized large language models (LLMs), enabling higher throughput and substantially reduced memory usage with minimal accuracy loss. Quantized models address memory constraints in LLMs and enhance GPU resource utilization through efficient GPU sharing. However, quantized models have smaller KV block sizes than non-quantized models, causing limited memory efficiency due to memory fragmentation. Also, distinct resource usage patterns between quantized and non-quantized models require efficient scheduling to maximize throughput. To address these challenges, we propose FineServe, an inference serving framework for mixed-precision LLMs. FineServe's key contributions include: (1) KV Slab, a precision-aware adaptive memory management technique dynamically allocating KV cache based on model quantization characteristics, significantly reducing GPU memory fragmentation, and (2) a two-level scheduling framework comprising a global scheduler that places models to GPUs based on request rates, latency SLOs, and memory constraints and efficiency, and a local scheduler that adaptively adjusts batch sizes according to real-time request fluctuations. Experimental results demonstrate that FineServe achieves up to 2.2x higher SLO attainment and 1.8x higher token generation throughput compared to the state-of-the-art GPU sharing systems.
- Abstract(参考訳): 近年のPTQ(Post-Training Quantization)技術の進歩により、量子化大言語モデル(LLM)の需要が大幅に増加し、スループットの向上とメモリ使用量の削減が可能になった。
量子モデルは、LLMのメモリ制約に対処し、効率的なGPU共有を通じてGPUリソースの利用を向上させる。
しかし、量子化モデルは非量子化モデルよりもKVブロックサイズが小さく、メモリの断片化によってメモリ効率が制限される。
また、量子化モデルと非量子化モデルの間で異なるリソース利用パターンはスループットを最大化するために効率的なスケジューリングを必要とする。
これらの課題に対処するため,混合精度 LLM のための推論サービスフレームワークである FineServe を提案する。
FineServeの主な貢献は、(1) モデル量子化特性に基づいてKVキャッシュを動的に割当する精度適応型メモリ管理技術であるKV Slab、(2) 要求レート、レイテンシSLO、メモリ制約と効率に基づいてGPUにモデルを配置するグローバルスケジューラと、リアルタイムの要求変動に応じてバッチサイズを適応的に調整するローカルスケジューラである。
実験により、FinServeは最先端のGPU共有システムと比較して最大2.2倍のSLO達成率と1.8倍のトークン生成スループットを達成することが示された。
関連論文リスト
- CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。