論文の概要: LLMCache: Layer-Wise Caching Strategies for Accelerated Reuse in Transformer Inference
- arxiv url: http://arxiv.org/abs/2512.16843v1
- Date: Thu, 18 Dec 2025 18:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.200876
- Title: LLMCache: Layer-Wise Caching Strategies for Accelerated Reuse in Transformer Inference
- Title(参考訳): LLMCache:トランスフォーマー推論における高速化リユースのためのレイヤワイズキャッシング戦略
- Authors: Harsh Vardhan Bansal,
- Abstract要約: トランスフォーマーベースの言語モデルは、幅広いタスクで顕著なパフォーマンスを達成したが、その高い推論レイテンシは、リアルタイムおよび大規模デプロイメントにおいて大きな課題となっている。
LLMCacheは,入力シーケンスのセマンティックな類似性に基づいて中間的アクティベーションを再利用することで,トランスフォーマー推論を高速化する新しいレイヤワイドキャッシュフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models have achieved remarkable performance across a wide range of tasks, yet their high inference latency poses a significant challenge for real-timeand large-scale deployment. While existing caching mechanisms,such as token-level key-value caches, offer speedups in autore-gressive decoding, they are limited in scope and applicability. In this paper, we present LLMCache, a novel layer-wise caching framework that accelerates transformer inference by reusing intermediate activations based on semantic similarity of input sequences. Unlike prior work, LLMCache is model-agnostic,operates across both encoder and decoder architectures, and supports caching at arbitrary transformer layers. We introduce a lightweight fingerprinting mechanism for matching seman-tically similar inputs and propose adaptive eviction strategies to manage cache staleness. Experiments on BERT and GPT-2 across SQuAD, WikiText-103, and OpenBookQA show up to 3.1 X speedup in inference time with <0.5% accuracy degradation. Our results highlight LLMCache as a practical and general-purpose solution for optimizing transformer inference in real-world applications
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、幅広いタスクで顕著なパフォーマンスを達成したが、その高い推論レイテンシは、リアルタイムおよび大規模デプロイメントにおいて大きな課題となっている。
トークンレベルのキーバリューキャッシュのような既存のキャッシュメカニズムは、自動回帰デコーディングのスピードアップを提供するが、スコープと適用性には制限がある。
本稿では,入力シーケンスのセマンティックな類似性に基づいて中間アクティベーションを再利用することで,トランスフォーマー推論を高速化する新しいレイヤワイドキャッシュフレームワークであるLLMCacheを提案する。
以前の作業とは異なり、LLMCacheはモデルに依存しず、エンコーダとデコーダアーキテクチャの両方で動作し、任意のトランスフォーマー層でのキャッシュをサポートする。
セマンティックに類似した入力をマッチングするための軽量な指紋認証機構を導入し,キャッシュの安定化を管理するための適応的消去戦略を提案する。
SQuAD、WikiText-103、OpenBookQAでのBERTとGPT-2の実験では、精度が0.5%の推論時間で最大3.1倍のスピードアップを示した。
実世界のアプリケーションにおけるトランスフォーマー推論を最適化するための実用的で汎用的なソリューションとしてLLMCacheが注目されている。
関連論文リスト
- DiCache: Let Diffusion Model Determine Its Own Cache [62.954717254728166]
DiCacheは、実行時に拡散モデルを加速するためのトレーニング不要のアダプティブキャッシュ戦略である。
Online Probe Profiling Schemeは浅層オンラインプローブを利用して,キャッシュエラーのオンザフライインジケータをリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、マルチステップの履歴キャッシュから出力されるディープ層の特徴を近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [43.83288560196838]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。
FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。
複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文 参考訳(メタデータ) (2025-05-26T05:58:49Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。
命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。
LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。