論文の概要: TinyServe: Query-Aware Cache Selection for Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2509.12211v1
- Date: Thu, 28 Aug 2025 16:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.801547
- Title: TinyServe: Query-Aware Cache Selection for Efficient LLM Serving
- Title(参考訳): TinyServe: 効率的なLLM実行のためのクエリ対応キャッシュ選択
- Authors: Dong Liu, Yanxuan Yu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を効率的に提供するためのTinyServeを提案する。
TinyServeは、スポーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。
我々の実験では、TinyServeがtextbf3.4x の高速化と textbf2x のメモリ節約を無視できる精度の低下で実現している。
- 参考スコア(独自算出の注目度): 5.216774377033164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving large language models (LLMs) efficiently remains challenging due to the high memory and latency overhead of key-value (KV) cache access during autoregressive decoding. We present \textbf{TinyServe}, a lightweight and extensible serving system for deploying tiny LLMs (e.g., TinyLLaMA, GPT2-345M) with support for structured KV sparsity, plugin-based token selection, and hardware-efficient attention kernels. Unlike prior simulation frameworks, TinyServe executes real-time decoding with configurable sparsity strategies and fine-grained instrumentation. To reduce decoding cost, we introduce a \textit{query-aware page selection} mechanism that leverages bounding-box metadata to estimate attention relevance between the query and KV cache blocks. This enables selective KV loading with minimal overhead and no model modifications. Our fused CUDA kernel integrates page scoring, sparse memory access, and masked attention in a single pass. Experiments show that TinyServe achieves up to \textbf{3.4x} speedup and over \textbf{2x} memory savings with negligible accuracy drop. Additional analysis of cache reuse, page hit rate, and multi-GPU scaling confirms its practicality as an efficient system-level design for LLM training and inference research on resource-constrained hardware.
- Abstract(参考訳): 大きな言語モデル(LLM)を効率よく実行することは、自己回帰デコード中のキー値(KV)キャッシュアクセスの高メモリと遅延のオーバーヘッドのため、依然として困難である。
我々は,小型LCM(例えば TinyLLaMA, GPT2-345M)をデプロイする軽量で拡張可能なサービスシステムである‘textbf{TinyServe} について述べる。
従来のシミュレーションフレームワークとは異なり、TinyServeは設定可能なスパーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。
復号化コストを低減するため,クエリとKVキャッシュブロック間の注意関係を推定するために,バウンディングボックスメタデータを活用した‘textit{query-aware Page selection’機構を導入する。
これにより、最小限のオーバーヘッドで選択的なKVローディングが可能で、モデルの変更はない。
我々の融合CUDAカーネルはページスコアリングとスパースメモリアクセスを統合し、単一のパスで注意を隠蔽する。
実験によると、TinyServe は \textbf{3.4x} のスピードアップと \textbf{2x} のメモリセーブを無視できる精度の低下で達成している。
キャッシュ再利用、ページヒット率、マルチGPUスケーリングのさらなる分析により、LLMトレーニングのための効率的なシステムレベルの設計とリソース制約のあるハードウェアの推論研究の実用性が確認される。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention [26.54297116028556]
大規模言語モデル(LLM)は、長いシーケンスや複雑な推論タスクの処理において顕著な可能性を示している。
LServeは,ハイブリッドスパースアテンションにより長周期LLMサービスを高速化する,効率的なシステムである。
LServeはLLMプリフィルを最大2.9倍加速し、vLLMで1.3-2.1倍デコードする。
論文 参考訳(メタデータ) (2025-02-20T18:59:52Z) - CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。