論文の概要: StepCache: Step-Level Reuse with Lightweight Verification and Selective Patching for LLM Serving
- arxiv url: http://arxiv.org/abs/2603.28795v1
- Date: Tue, 24 Mar 2026 17:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.476377
- Title: StepCache: Step-Level Reuse with Lightweight Verification and Selective Patching for LLM Serving
- Title(参考訳): StepCache: LLM実行のための軽量検証と選択パッチ付きステップレベル再利用
- Authors: Azam Nouri,
- Abstract要約: StepCacheはバックエンドに依存しないステップレベルの再利用レイヤで、出力を順序付けられたステップに分割します。
StepCacheは、選択的パッチによって失敗したリージョンのみを再生する。
平均レイテンシは2.13秒から0.67秒、中央レイテンシは2.42秒から0.01秒、p95レイテンシは3.38秒から3.30秒に減少する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address LLM serving workloads where repeated requests share a common solution structure but differ in localized constraints, such as output schema, variable names, or numeric constants. Prior caching approaches typically reuse either full responses (semantic caching) or model-internal KV/prefix states, which are respectively brittle under partial changes or tightly coupled to specific backends. We present StepCache, a backend-agnostic step-level reuse layer that segments outputs into ordered steps, retrieves the best-matching cached request, verifies steps using lightweight task-aware checks, and regenerates only failing regions via selective patching. StepCache additionally supports strict structured-output enforcement for JSON, including single-step extraction, required-key constraints, and one-shot repair, as well as conservative skip-reuse fallbacks for semantic changes. For linear equations, StepCache promotes verification into correction via a bounded repair loop with a deterministic fallback that guarantees correctness when the backend model fails. In a CPU-only perturbation-heavy micro-benchmark on math and JSON variants, averaged over three seeds, StepCache reduces mean latency from 2.13 s to 0.67 s, median latency from 2.42 s to 0.01 s, and p95 latency from 3.38 s to 3.30 s. It also reduces total token usage from 36.1k to 27.3k and improves end-to-end correctness from 72.5% to 100% under task-specific checks and a stitched-output integrity check. Across requests, 79.7% take the reuse-only fast path, 5.4% require patching, and 14.9% trigger skip-reuse.
- Abstract(参考訳): 繰り返し要求が共通のソリューション構造を共有するが、出力スキーマや変数名、数値定数といった局所的な制約が異なる、LLMサービスワークロードに対処する。
従来のキャッシュアプローチでは、一般的にフルレスポンス(セマンティックキャッシュ)またはモデル内部KV/プレフィックスステートを再利用する。
StepCacheはバックエンドに依存しないステップレベルの再利用レイヤで、出力を順序付けられたステップに分割し、最適なキャッシュ要求を検索し、軽量なタスク認識チェックを使用してステップを検証する。
StepCacheはまた、シングルステップの抽出、必須キーの制約、ワンショットの修復、セマンティックな変更に対する保守的なスキップ-再利用のフォールバックを含む、JSONの厳格な構造化出力の強制をサポートする。
線形方程式の場合、StepCacheは、バックエンドモデルが失敗する場合の正確性を保証する決定論的フォールバックで、境界付き修復ループによる検証の修正を促進する。
CPUのみの摂動重く、数学とJSONの変種に関するマイクロベンチマークでは、平均3つの種を平均して、StepCacheは平均レイテンシを2.13秒から0.67秒、中央レイテンシを2.42秒から0.01秒、p95レイテンシを3.38秒から3.30秒に短縮する。
また、総トークン使用量を36.1kから27.3kに減らし、タスク固有のチェックと縫合出力整合性チェックの下で、エンドツーエンドの正しさを72.5%から100%に改善する。
リクエスト全体では、79.7%が再利用のみの高速パス、5.4%がパッチが必要、14.9%がスキップ-リユースをトリガーする。
関連論文リスト
- vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Accelerating Diffusion Transformer via Error-Optimized Cache [17.666577782052205]
Diffusion Transformer (DiT) はコンテンツ生成の重要な方法である。
既存のキャッシュ手法は、前回のステップからDiT機能を再利用し、次のステップで計算をスキップすることで、生成を加速する。
我々はこの問題を解決するために textbfError-textbfOptimized textbfCache (textbfEOC) を提案する。
論文 参考訳(メタデータ) (2025-01-31T15:58:15Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。