論文の概要: CacheMind: From Miss Rates to Why -- Natural-Language, Trace-Grounded Reasoning for Cache Replacement
- arxiv url: http://arxiv.org/abs/2602.12422v1
- Date: Thu, 12 Feb 2026 21:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.761123
- Title: CacheMind: From Miss Rates to Why -- Natural-Language, Trace-Grounded Reasoning for Cache Replacement
- Title(参考訳): CacheMind: ミス率から理由へ -- キャッシュ置換のための自然な言語、トレースを取り巻く推論
- Authors: Kaushal Mhapsekar, Azam Ghanbari, Bita Aslrousta, Samira Mirbagher-Ajorpaz,
- Abstract要約: Retrieval-Augmented Generation(RAG)とLarge Language Models(LLM)を使用してキャッシュトレースに対するセマンティック推論を可能にするツールであるCacheMindを紹介する。
アーキテクトは、"なぜPC Xに関連付けられたメモリアクセスが、より多くの排除を引き起こすのか?
キャッシュ置換問題に対するLCMベースの推論のための最初の検証済みベンチマークスイートであるCacheMindBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cache replacement remains a challenging problem in CPU microarchitecture, often addressed using hand-crafted heuristics, limiting cache performance. Cache data analysis requires parsing millions of trace entries with manual filtering, making the process slow and non-interactive. To address this, we introduce CacheMind, a conversational tool that uses Retrieval-Augmented Generation (RAG) and Large Language Models (LLMs) to enable semantic reasoning over cache traces. Architects can now ask natural language questions like, "Why is the memory access associated with PC X causing more evictions?", and receive trace-grounded, human-readable answers linked to program semantics for the first time. To evaluate CacheMind, we present CacheMindBench, the first verified benchmark suite for LLM-based reasoning for the cache replacement problem. Using the SIEVE retriever, CacheMind achieves 66.67% on 75 unseen trace-grounded questions and 84.80% on 25 unseen policy-specific reasoning tasks; with RANGER, it achieves 89.33% and 64.80% on the same evaluations. Additionally, with RANGER, CacheMind achieves 100% accuracy on 4 out of 6 categories in the trace-grounded tier of CacheMindBench. Compared to LlamaIndex (10% retrieval success), SIEVE achieves 60% and RANGER achieves 90%, demonstrating that existing Retrieval-Augmented Generation (RAGs) are insufficient for precise, trace-grounded microarchitectural reasoning. We provided four concrete actionable insights derived using CacheMind, wherein bypassing use case improved cache hit rate by 7.66% and speedup by 2.04%, software fix use case gives speedup of 76%, and Mockingjay replacement policy use case gives speedup of 0.7%; showing the utility of CacheMind on non-trivial queries that require a natural-language interface.
- Abstract(参考訳): キャッシュ置換はCPUマイクロアーキテクチャにおいて依然として困難な問題であり、しばしば手作りのヒューリスティックを使って対処し、キャッシュ性能を制限している。
キャッシュデータ分析では、数百万のトレースエントリを手動によるフィルタリングで解析する必要があります。
これを解決するために、キャッシュトレース上のセマンティック推論を可能にするために、Retrieval-Augmented Generation (RAG)とLarge Language Models (LLM)を使用する対話ツールであるCacheMindを紹介した。
アーキテクトは、"なぜPC Xに関連付けられたメモリアクセスがより多くの消去を引き起こすのか?"といった自然言語の質問をすることで、プログラムセマンティクスにリンクした、トレースされた人間可読な回答を初めて受け取ることができる。
CacheMindを評価するために,キャッシュ置換問題に対するLCMベースの推論のための最初のベンチマークスイートであるCacheMindBenchを提案する。
SIEVEレトリバーを用いて、CacheMindは75の見当たらないトレースグラウンドの質問に対して66.67%、25の見当たらないポリシー固有の推論タスクで84.80%、RANGERでは89.33%、64.80%を同じ評価で達成している。
さらにRANGERでは、CacheMindはCacheMindBenchのトレースグラウンド層にある6つのカテゴリのうち4つで100%の精度を実現している。
LlamaIndex (10%の検索成功)と比較して、SIEVEは60%を達成し、RANGERは90%を達成している。
我々は、CacheMindを使った具体的な実行可能な4つの洞察を提供し、キャッシュヒット率7.66%、スピードアップ2.04%、ソフトウェア修正ユースケース76%、モッキンジェイ代替ポリシーユースケース0.7%、自然言語インターフェースを必要とする非自明なクエリに対するCacheMindの有用性を示す。
関連論文リスト
- vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。
命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。
LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。