論文の概要: Toward Robust and Efficient ML-Based GPU Caching for Modern Inference
- arxiv url: http://arxiv.org/abs/2509.20979v1
- Date: Thu, 25 Sep 2025 10:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.839525
- Title: Toward Robust and Efficient ML-Based GPU Caching for Modern Inference
- Title(参考訳): モダン推論のためのロバストかつ効率的なMLベースGPUキャッシングに向けて
- Authors: Peng Chen, Jiaji Zhang, Hailiang Zhao, Yirong Zhang, Jiahong Yu, Xueyan Tang, Yixuan Wang, Hao Li, Jianping Zou, Gang Xiong, Kingsum Chow, Shuibing He, Shuiguang Deng,
- Abstract要約: 学習ベースのGPUキャッシングのためのフレームワークであるtextscLCRを提案する。
そのコアアルゴリズムであるtextscLARUは、マシン学習した予測でtextscLRUを強化し、オンラインエラー推定を通じて予測精度に動的に適応する。
実験では、スループットを最大24.2%改善し、P99 TTFTを最大28.3%削減し、広く使われている推論システムを上回っている。
- 参考スコア(独自算出の注目度): 28.13206649836587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern GPU inference, cache efficiency remains a major bottleneck. In recommendation models, embedding hit rates largely determine throughput, while in large language models, KV-cache misses substantially increase time-to-first-token (TTFT). Heuristic policies such as \textsc{LRU} often struggle under structured access patterns. Learning-based approaches are promising, but in practice face two major limitations: they degrade sharply when predictions are inaccurate, or they gain little even with accurate predictions due to conservative designs. Some also incur high overhead, further limiting practicality. We present \textsc{LCR}, a practical framework for learning-based GPU caching that delivers performance gains while ensuring robustness and efficiency. Its core algorithm, \textsc{LARU}, enhances \textsc{LRU} with machine-learned predictions and dynamically adapts to prediction accuracy through online error estimation. When predictions are accurate, \textsc{LARU} achieves near-optimal performance. With inaccurate predictions, it degrades gracefully to near-\textsc{LRU} performance. With \textsc{LCR}, we bridge the gap between empirical progress and theoretical advances in learning-based caching. Experiments show that \textsc{LCR} delivers consistent gains under realistic conditions. In DLRM and LLM scenarios, it improves throughput by up to 24.2\% and reduces P99 TTFT by up to 28.3\%, outperforming widely used inference systems. Even under poor predictions, its performance remains stable, demonstrating practical robustness.
- Abstract(参考訳): 最近のGPU推論では、キャッシュ効率は依然として大きなボトルネックである。
推奨モデルでは、埋め込みヒットレートがスループットを決定するのに対して、大きな言語モデルでは、KV-cacheミスはTTFT(Time-to-first-token)を大幅に増加させる。
textsc{LRU}のようなヒューリスティックなポリシーは、しばしば構造化されたアクセスパターンの下で苦労する。
学習ベースのアプローチは有望だが、実際には2つの大きな制限に直面している。
オーバーヘッドも高く、実用性も制限されている。
我々は,堅牢性と効率性を確保しつつ,パフォーマンス向上を実現するための,学習ベースのGPUキャッシングのための実践的フレームワークである‘textsc{LCR} を提示する。
そのコアアルゴリズムである \textsc{LARU} は、マシン学習した予測で \textsc{LRU} を強化し、オンラインエラー推定によって予測精度に動的に適応する。
予測が正確であれば、 \textsc{LARU} は最適に近い性能を達成する。
不正確な予測では、ほぼ\textsc{LRU}のパフォーマンスに優雅に低下する。
textsc{LCR}では、経験的進歩と学習に基づくキャッシュ理論の進歩のギャップを埋める。
実験により, 現実的な条件下では, textsc{LCR} が一貫した利得をもたらすことが示された。
DLRMとLLMのシナリオでは、スループットを最大24.2\%改善し、P99 TTFTを最大28.3\%削減する。
予測が悪くても、その性能は安定しており、実用的な堅牢性を示している。
関連論文リスト
- Improving Long-term Autoregressive Spatiotemporal Predictions: A Proof of Concept with Fluid Dynamics [10.71350538032054]
複雑なシステムでは、エラーの蓄積によって長期的な精度が劣化することが多い。
我々はPushForwardフレームワークを提案する。PushForwardフレームワークは、マルチステップ学習を実現しつつ、ワンステップのトレーニングを継続する。
SPFはモデル予測から補足的データセットを構築し、取得戦略を通じて真実と組み合わせる。
論文 参考訳(メタデータ) (2025-08-25T23:51:18Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting [12.317709090608837]
SpecEEは投機的早期終了を伴う高速推論エンジンである。
SpecEEはクラウドとPCのシナリオでそれぞれLlama2-7Bで2.25倍と2.43倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-11T02:38:53Z) - Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective [7.408649506385476]
大規模言語モデル(LLM)トレーニングのエスカレートスケールとコストは、下流タスク性能の正確な事前トレーニング予測を必要とする。
現在の予測手法には精度と信頼性が欠けている。
本稿では,下流性能予測のためのクラスタリングオンディフルティ(COD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T15:44:57Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [68.71450519846081]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - TKN: Transformer-based Keypoint Prediction Network For Real-time Video
Prediction [16.294105130947]
ビデオ予測のためのトランスフォーマーベースキーポイント予測ニューラルネットワーク(TKN)を提案する。
TKNは、制約付き情報抽出と並列予測スキームによる予測プロセスを向上する教師なし学習手法である。
KTHとHuman3.6データセットに関する大規模な実験は、TKNが既存の方法よりも11倍高速であることを示している。
論文 参考訳(メタデータ) (2023-03-17T07:26:16Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Cascade Bagging for Accuracy Prediction with Few Training Samples [8.373420721376739]
少数のトレーニングサンプルの下で精度予測器を訓練するための新しいフレームワークを提案する。
このフレームワークは、データ拡張方法とアンサンブル学習アルゴリズムからなる。
論文 参考訳(メタデータ) (2021-08-12T09:10:52Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。