論文の概要: Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
- arxiv url: http://arxiv.org/abs/2605.05696v1
- Date: Thu, 07 May 2026 05:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.535447
- Title: Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
- Title(参考訳): Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving
- Authors: Bole Ma, Jan Eitzinger, Harald Köstler,
- Abstract要約: 本稿では,SG の radix キャッシュを拡張した Irminsul を提案する。
DeepSeek-V2-Lite (16B/2.4B)、Kimi Moonlight-16B-A3B、JoyAI-Flash (48B/3B)の3つのネイティブMLA-MoEデプロイメントを評価した。
- 参考スコア(独自算出の注目度): 0.11099872871193028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic LLM workloads put bit-identical tokens at shifted positions every turn, voiding prefix caches at the first byte of divergence. Operators report cache-hit regressions ranging from moderate slowdowns to severe TTFT spikes of 10-16s on unchanged content. Prior position-independent caching systems correct RoPE on the full $d_K$-dimensional key, an architectural cost imposed by GQA, not by caching itself. Multi-Head Latent Attention, deployed at scale in DeepSeek-V2/V3/R1, Kimi-K2/Moonlight, GLM-5, and Mistral Large 3, factors each KV row into a position-free $c_{KV}$ and a 64-dim $k_r$ correctable in closed form; this structure motivates content-addressed caching as a natural fit rather than a GQA workaround. We present Irminsul, which extends SGLang's radix cache with content-hash keying over CDC-chunked segments and a $δ$-rotation rule for $k_r$. We evaluate three native MLA-MoE deployments - DeepSeek-V2-Lite (16B/2.4B), Kimi Moonlight-16B-A3B, and JoyAI-Flash (48B/3B) - with output-consistency on all three and recovery measured on the two endpoints; Irminsul recovers up to ~83% of prompt tokens above exact-prefix on agentic traffic while delivering 63% prefill energy savings per cache hit. We argue that content-addressed caching belongs in the serving stack as a first-class primitive, not a retrofit over prefix matching.
- Abstract(参考訳): エージェントLDMワークロードは、ビット識別トークンを各ターンにシフトした位置に配置し、分岐の最初のバイトでプレフィックスキャッシュを無効にした。
オペレータは、適度なスローダウンから、10~16秒の厳しいTTFTスパイクまでのキャッシュヒットレグレッションを、変化のない内容で報告する。
従来の位置に依存しないキャッシュシステムは、キャッシュ自体ではなく、GQAが課したアーキテクチャコストであるフル$d_K$-dimensionalキーでRoPEを補正する。
DeepSeek-V2/V3/R1、Kim-K2/Moonlight、GLM-5、Mistral Large 3で大規模に展開されたマルチヘッド遅延注意:各KV行は、GQAワークアラウンドではなく自然なフィットとして、クローズドな形で、位置のない$c_{KV}$と64-dim $k_r$に修正できる。
本稿では,SGLang の radix キャッシュを拡張した Irminsul と,CDC のチャンクセグメント上でのコンテントハッシュキー,および$k_r$ に対する$δ$-rotation ルールを提案する。
我々は、DeepSeek-V2-Lite (16B/2.4B)、Kimi Moonlight-16B-A3B、JoyAI-Flash (48B/3B)の3つのネイティブMLA-MoEデプロイメントを評価し、これら3つのエンドポイントの出力一貫性と2つのエンドポイントでのリカバリを計測した。
コンテントに適応したキャッシュは、プリミティブとしてサービススタックに属しており、プレフィックスマッチングのリプレースではない、と我々は主張する。
関連論文リスト
- IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse [68.18308357205586]
Longcontext Agenticは、大規模言語モデルの定義ユースケースとして登場した。
Sparseは、この課題を効果的に解決し、DeepSeek Sparse Attention(DSA)は、代表的なプロダクショングレードソリューションである。
我々は、レイヤを独自のインデクサを実行するフルレイヤの小さなセットと、最も近いフルレイヤのトップkインデックスを単純に再利用する共有レイヤの大多数に分割することで、層間の冗長性を利用するIndexCacheを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:27:21Z) - Attention Is All You Need for KV Cache in Diffusion LLMs [36.94369617373333]
Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
論文 参考訳(メタデータ) (2025-10-16T17:59:48Z) - KVCache Cache in the Wild: Characterizing and Optimizing KVCache Cache at a Large Cloud Provider [15.532112534717262]
大規模言語モデル(LLM)の実現はクラウドプロバイダにとって重要であり、各要求処理後の中間結果(KV$)をキャッシュすることで、スループットとレイテンシが大幅に向上する。
我々は、主要なLLMサービスプロバイダの1つから、KV$ワークロードパターンを初めて体系的に評価した。
本稿では,特にキャッシュ容量の制限により,実世界のトレース下でのサービス性能を向上させる,ワークロード対応のキャッシュ消去ポリシーを提案する。
論文 参考訳(メタデータ) (2025-06-03T08:51:38Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。