論文の概要: Leyline: KV Cache Directives for Agentic Inference
- arxiv url: http://arxiv.org/abs/2606.01065v1
- Date: Sun, 31 May 2026 07:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.186217
- Title: Leyline: KV Cache Directives for Agentic Inference
- Title(参考訳): Leyline: エージェント推論のためのKVキャッシュディレクティブ
- Authors: Bole Ma, Jan Eitzinger, Harald Koestler,
- Abstract要約: レイラインはエージェント編集のためのサーブサイドプリミティブである。
宣言的ディレクティブ4タプルは、編集対象と位置正当性を維持する方法とを分離する。
同じインターフェースを介してルーティングされる10行のトランケーション規則は、デバッグジャムにおいてエージェントの解率+14.3 ppを上昇させる。
- 参考スコア(独自算出の注目度): 0.11099872871193028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern KV cache management assumes the chatbot workload: prompts arrive once and the cache grows append-only, so prefix caching and forward-only eviction are correct by construction. Agentic LLMs break this assumption. Their conversations evolve through policy-driven editing: failed tool calls are retried, stale outputs dropped, trajectories pivoted. Two distinct cache problems result. First, identical content moves to new positions between turns, invalidating exact-prefix caches even though the underlying KV would still be valid; recent work on position-independent caching for MLA addresses this reuse problem. Second, and this paper's focus, a policy may need to direct the serving system to actively remove or replace a span of cached content and continue without re-prefilling everything that came after. No existing primitive offers this. Production agentic harnesses fall back to re-prefill on every edit, paying full prefix-recomputation cost; kernel-level eviction methods make their own decisions and cannot accept policy directives from outside the kernel. We introduce Leyline, a serving-side primitive that closes this gap. A declarative directive 4-tuple separates what to edit from how to preserve position correctness. The policy declares the edit and its mode (in-place splice or prefix-trimmed re-prefill for semantic forgetting); an architecture-agnostic interface routes to a per-architecture kernel that restores attention math via a closed-form RoPE-rotation correction. The splice kernel lifts replay cache-hit by +11.2 pp and cuts latency by up to 241 ms. A ten-line truncation rule routed through the same interface lifts agentic solve rate by +14.3 pp on debug-gym. The mechanism is open; the policy space it enables is the agenda.
- Abstract(参考訳): 現代的なKVキャッシュ管理では、チャットボットのワークロードを前提としている。プロンプトは一度到着し、キャッシュは追加専用に成長する。
エージェントLSMはこの仮定を破ります。
彼らの会話はポリシー駆動の編集によって進化する。失敗するツールコールはリトライされ、古いアウトプットがドロップされ、トラジェクトリがピボットされる。
2つの異なるキャッシュ問題が発生します。
まず、同一のコンテンツはターン間の新しい位置に移動し、基礎となるKVが有効であっても正確なプリフィックスキャッシュを無効にする。
第2に、本論文の焦点は、サービスシステムに対して、キャッシュされたコンテンツのスパンを積極的に取り除いたり、置き換えたりして、後続のすべてを補充することなく、継続するように指示する必要があるかもしれない。
既存のプリミティブは提供していません。
プロダクションエージェントハーネスは、編集毎に再準備され、完全なプレフィックス-再計算コストが支払われる。
このギャップを埋めるサーブサイドプリミティブであるLeylineを紹介します。
宣言的ディレクティブ4タプルは、編集対象と位置正当性を維持する方法とを分離する。
このポリシーは、編集とそのモード(インプレース・スプライスまたはプレフィックス・トリミングによるセマンティック・リファリング)を宣言し、アーキテクチャに依存しないインターフェースがアーキテクチャごとのカーネルにルートされ、クローズドフォームのRoPE回転補正によって注意計算を復元する。
スプライスカーネルはキャッシュヒットを+11.2ppでリプレイし、レイテンシを241msまで削減する。同じインターフェースを介してルーティングされた10行のトランケーションルールは、デバッグジャム上のエージェント解決率+14.3ppを下げる。
メカニズムはオープンで、それを可能にするポリシー空間はアジェンダです。
関連論文リスト
- Grounded Cache Routing for Retrieval-Augmented Generation: When Is It Safe to Reuse an Answer? [0.0]
我々は、4つの安価なゲートが同時に保持されている場合にのみキャッシュされた応答を許容するエビデンス検証キャッシュルータであるGroundedCacheを提案する。
我々は、ヒットレートだけでなく、キャッシュ安全性をストレステストする6段階のワークロードを構築し、オペレーター向けメトリックであるunsafe-served rate (USR)を導入する。
2つのデータセットと12,000の実LLM世代(Qwen2.5-7B-Instruct on vLLM with Automatic Prefix Caching)、GroundedCacheはUSRをすべてのHotpotQAシステムで0.0%、mtRAGドキュメントドリフトで1.5%まで駆動する。
論文 参考訳(メタデータ) (2026-05-26T16:50:02Z) - Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches [15.961259469095571]
プリフィックスキャッシュは、Large Language Model(LLM)サービスにおける重要な最適化である。
しかし、GPUメモリが不足しているため、その利点は退行ポリシーに大きく依存する。
システムプロンプト,ユーザクエリ,ツールアウトプット,モデル応答,チェーンオブ思考推論など,プロンプト内のさまざまなトークンタイプが,再利用率の最大756倍の変動を示すことを示す。
セマンティック・アダプティブなプレフィックスキャッシュ消去ポリシーであるSAECacheを提案する。
論文 参考訳(メタデータ) (2026-05-12T18:38:24Z) - When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning [60.714416943748866]
シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
論文 参考訳(メタデータ) (2026-05-05T02:59:58Z) - HoReN: Normalized Hopfield Retrieval for Large-Scale Sequential Model Editing [12.303016850029683]
大規模言語モデルは、展開後に必然的に時代遅れになる膨大な事実知識を符号化する。
1行の作業は、ロケーション・then-edit手順を通じてベースウェイトを直接変更することで、新しい事実をインストールする。
補完ラインはベースウェイトをそのまま残し、外部メモリを通して編集をルーティングするが、ルーティングの課題に直面している。
提案するHoReNは,3つのアイデアに基づいたルーティング機能を備えたコードブックベースのエディタである。
論文 参考訳(メタデータ) (2026-05-02T15:51:31Z) - A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。
逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。
本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文 参考訳(メタデータ) (2026-04-25T17:38:51Z) - Sparse Prefix Caching for Hybrid and Recurrent LLM Serving [0.7284556903703034]
重なり合う深さの分布の下で,スパースプレフィックスキャッシングをチェックポイント配置として定式化する。
リクエストが非自明なプレフィックスを共有する場合、実世界のデータ上で標準非対称性によって追跡されるフロンティアを一貫して改善することを示す。
正確な出力を保持し、リカレント計算自体を変更したり、新しいリカレント更新カーネルを必要としたりしない。
論文 参考訳(メタデータ) (2026-04-17T09:24:58Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - StepCache: Step-Level Reuse with Lightweight Verification and Selective Patching for LLM Serving [0.0]
StepCacheはバックエンドに依存しないステップレベルの再利用レイヤで、出力を順序付けられたステップに分割します。
StepCacheは、選択的パッチによって失敗したリージョンのみを再生する。
平均レイテンシは2.13秒から0.67秒、中央レイテンシは2.42秒から0.01秒、p95レイテンシは3.38秒から3.30秒に減少する。
論文 参考訳(メタデータ) (2026-03-24T17:19:26Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。