論文の概要: Toward Robust and Efficient ML-Based GPU Caching for Modern Inference
- arxiv url: http://arxiv.org/abs/2509.20979v1
- Date: Thu, 25 Sep 2025 10:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.839525
- Title: Toward Robust and Efficient ML-Based GPU Caching for Modern Inference
- Title(参考訳): モダン推論のためのロバストかつ効率的なMLベースGPUキャッシングに向けて
- Authors: Peng Chen, Jiaji Zhang, Hailiang Zhao, Yirong Zhang, Jiahong Yu, Xueyan Tang, Yixuan Wang, Hao Li, Jianping Zou, Gang Xiong, Kingsum Chow, Shuibing He, Shuiguang Deng,
- Abstract要約: 学習ベースのGPUキャッシングのためのフレームワークであるtextscLCRを提案する。
そのコアアルゴリズムであるtextscLARUは、マシン学習した予測でtextscLRUを強化し、オンラインエラー推定を通じて予測精度に動的に適応する。
実験では、スループットを最大24.2%改善し、P99 TTFTを最大28.3%削減し、広く使われている推論システムを上回っている。
- 参考スコア(独自算出の注目度): 28.13206649836587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern GPU inference, cache efficiency remains a major bottleneck. In recommendation models, embedding hit rates largely determine throughput, while in large language models, KV-cache misses substantially increase time-to-first-token (TTFT). Heuristic policies such as \textsc{LRU} often struggle under structured access patterns. Learning-based approaches are promising, but in practice face two major limitations: they degrade sharply when predictions are inaccurate, or they gain little even with accurate predictions due to conservative designs. Some also incur high overhead, further limiting practicality. We present \textsc{LCR}, a practical framework for learning-based GPU caching that delivers performance gains while ensuring robustness and efficiency. Its core algorithm, \textsc{LARU}, enhances \textsc{LRU} with machine-learned predictions and dynamically adapts to prediction accuracy through online error estimation. When predictions are accurate, \textsc{LARU} achieves near-optimal performance. With inaccurate predictions, it degrades gracefully to near-\textsc{LRU} performance. With \textsc{LCR}, we bridge the gap between empirical progress and theoretical advances in learning-based caching. Experiments show that \textsc{LCR} delivers consistent gains under realistic conditions. In DLRM and LLM scenarios, it improves throughput by up to 24.2\% and reduces P99 TTFT by up to 28.3\%, outperforming widely used inference systems. Even under poor predictions, its performance remains stable, demonstrating practical robustness.
- Abstract(参考訳): 最近のGPU推論では、キャッシュ効率は依然として大きなボトルネックである。
推奨モデルでは、埋め込みヒットレートがスループットを決定するのに対して、大きな言語モデルでは、KV-cacheミスはTTFT(Time-to-first-token)を大幅に増加させる。
textsc{LRU}のようなヒューリスティックなポリシーは、しばしば構造化されたアクセスパターンの下で苦労する。
学習ベースのアプローチは有望だが、実際には2つの大きな制限に直面している。
オーバーヘッドも高く、実用性も制限されている。
我々は,堅牢性と効率性を確保しつつ,パフォーマンス向上を実現するための,学習ベースのGPUキャッシングのための実践的フレームワークである‘textsc{LCR} を提示する。
そのコアアルゴリズムである \textsc{LARU} は、マシン学習した予測で \textsc{LRU} を強化し、オンラインエラー推定によって予測精度に動的に適応する。
予測が正確であれば、 \textsc{LARU} は最適に近い性能を達成する。
不正確な予測では、ほぼ\textsc{LRU}のパフォーマンスに優雅に低下する。
textsc{LCR}では、経験的進歩と学習に基づくキャッシュ理論の進歩のギャップを埋める。
実験により, 現実的な条件下では, textsc{LCR} が一貫した利得をもたらすことが示された。
DLRMとLLMのシナリオでは、スループットを最大24.2\%改善し、P99 TTFTを最大28.3\%削減する。
予測が悪くても、その性能は安定しており、実用的な堅牢性を示している。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting [12.317709090608837]
SpecEEは投機的早期終了を伴う高速推論エンジンである。
SpecEEはクラウドとPCのシナリオでそれぞれLlama2-7Bで2.25倍と2.43倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-11T02:38:53Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [68.71450519846081]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - TKN: Transformer-based Keypoint Prediction Network For Real-time Video
Prediction [16.294105130947]
ビデオ予測のためのトランスフォーマーベースキーポイント予測ニューラルネットワーク(TKN)を提案する。
TKNは、制約付き情報抽出と並列予測スキームによる予測プロセスを向上する教師なし学習手法である。
KTHとHuman3.6データセットに関する大規模な実験は、TKNが既存の方法よりも11倍高速であることを示している。
論文 参考訳(メタデータ) (2023-03-17T07:26:16Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Cascade Bagging for Accuracy Prediction with Few Training Samples [8.373420721376739]
少数のトレーニングサンプルの下で精度予測器を訓練するための新しいフレームワークを提案する。
このフレームワークは、データ拡張方法とアンサンブル学習アルゴリズムからなる。
論文 参考訳(メタデータ) (2021-08-12T09:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。