論文の概要: TinyServe: Query-Aware Cache Selection for Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2509.12211v1
- Date: Thu, 28 Aug 2025 16:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.801547
- Title: TinyServe: Query-Aware Cache Selection for Efficient LLM Serving
- Title(参考訳): TinyServe: 効率的なLLM実行のためのクエリ対応キャッシュ選択
- Authors: Dong Liu, Yanxuan Yu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を効率的に提供するためのTinyServeを提案する。
TinyServeは、スポーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。
我々の実験では、TinyServeがtextbf3.4x の高速化と textbf2x のメモリ節約を無視できる精度の低下で実現している。
- 参考スコア(独自算出の注目度): 5.216774377033164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving large language models (LLMs) efficiently remains challenging due to the high memory and latency overhead of key-value (KV) cache access during autoregressive decoding. We present \textbf{TinyServe}, a lightweight and extensible serving system for deploying tiny LLMs (e.g., TinyLLaMA, GPT2-345M) with support for structured KV sparsity, plugin-based token selection, and hardware-efficient attention kernels. Unlike prior simulation frameworks, TinyServe executes real-time decoding with configurable sparsity strategies and fine-grained instrumentation. To reduce decoding cost, we introduce a \textit{query-aware page selection} mechanism that leverages bounding-box metadata to estimate attention relevance between the query and KV cache blocks. This enables selective KV loading with minimal overhead and no model modifications. Our fused CUDA kernel integrates page scoring, sparse memory access, and masked attention in a single pass. Experiments show that TinyServe achieves up to \textbf{3.4x} speedup and over \textbf{2x} memory savings with negligible accuracy drop. Additional analysis of cache reuse, page hit rate, and multi-GPU scaling confirms its practicality as an efficient system-level design for LLM training and inference research on resource-constrained hardware.
- Abstract(参考訳): 大きな言語モデル(LLM)を効率よく実行することは、自己回帰デコード中のキー値(KV)キャッシュアクセスの高メモリと遅延のオーバーヘッドのため、依然として困難である。
我々は,小型LCM(例えば TinyLLaMA, GPT2-345M)をデプロイする軽量で拡張可能なサービスシステムである‘textbf{TinyServe} について述べる。
従来のシミュレーションフレームワークとは異なり、TinyServeは設定可能なスパーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。
復号化コストを低減するため,クエリとKVキャッシュブロック間の注意関係を推定するために,バウンディングボックスメタデータを活用した‘textit{query-aware Page selection’機構を導入する。
これにより、最小限のオーバーヘッドで選択的なKVローディングが可能で、モデルの変更はない。
我々の融合CUDAカーネルはページスコアリングとスパースメモリアクセスを統合し、単一のパスで注意を隠蔽する。
実験によると、TinyServe は \textbf{3.4x} のスピードアップと \textbf{2x} のメモリセーブを無視できる精度の低下で達成している。
キャッシュ再利用、ページヒット率、マルチGPUスケーリングのさらなる分析により、LLMトレーニングのための効率的なシステムレベルの設計とリソース制約のあるハードウェアの推論研究の実用性が確認される。
関連論文リスト
- CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文 参考訳(メタデータ) (2025-12-11T15:40:36Z) - KVSwap: Disk-aware KV Cache Offloading for Long-Context On-device Inference [6.159622195480178]
言語モデル(LM)は、ミーティングやビデオの要約、ドキュメント分析といった、モバイルおよび組み込みAIアプリケーションを支えるものだ。
キー値(KV)キャッシュがコンテキスト長とバッチサイズとともに線形に増加するため、長コンテキスト推論はすぐにメモリキャパシティウォールにヒットする。
KVSwapは、KVキャッシュを非揮発性二次記憶装置(ディスク)にオフロードすることで、このメモリ壁を壊すソフトウェアフレームワークである。
KVSwapは、既存のKVキャッシュオフロード方式と比較して、生成品質を維持しながら、厳しいメモリ予算の下で高いスループットを提供する。
論文 参考訳(メタデータ) (2025-11-14T22:37:57Z) - XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention [26.54297116028556]
大規模言語モデル(LLM)は、長いシーケンスや複雑な推論タスクの処理において顕著な可能性を示している。
LServeは,ハイブリッドスパースアテンションにより長周期LLMサービスを高速化する,効率的なシステムである。
LServeはLLMプリフィルを最大2.9倍加速し、vLLMで1.3-2.1倍デコードする。
論文 参考訳(メタデータ) (2025-02-20T18:59:52Z) - CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。