論文の概要: SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2602.22603v1
- Date: Thu, 26 Feb 2026 04:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.52277
- Title: SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning
- Title(参考訳): SideQuest: 長距離エージェント推論のためのモデル駆動型KVキャッシュ管理
- Authors: Sanjay Kariyappa, G. Edward Suh,
- Abstract要約: SideQuestは、Large Reasoning Model(LRM)自体を利用してKVキャッシュ圧縮を実行する新しいアプローチである。
SideQuestは、エージェントタスクのピークトークン使用量を最大65%削減し、精度の低下を最小限にする。
215のサンプルでトレーニングしたモデルを用いて評価した結果,SideQuestはエージェントタスクのピークトークン使用量を最大65%削減し,精度の低下を最小限に抑えることができた。
- 参考スコア(独自算出の注目度): 15.752705487977861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-running agentic tasks, such as deep research, require multi-hop reasoning over information distributed across multiple webpages and documents. In such tasks, the LLM context is dominated by tokens from external retrieval, causing memory usage to grow rapidly and limiting decode performance. While several KV cache compression techniques exist for long-context inputs, we find that existing heuristics fail to support multi-step reasoning models effectively. We address this challenge with SideQuest -- a novel approach that leverages the Large Reasoning Model (LRM) itself to perform KV cache compression by reasoning about the usefulness of tokens in its context. To prevent the tokens associated with this management process from polluting the model's memory, we frame KV cache compression as an auxiliary task executed in parallel to the main reasoning task. Our evaluations, using a model trained with just 215 samples, show that SideQuest reduces peak token usage by up to 65% on agentic tasks with minimal degradation in accuracy, outperforming heuristic-based KV cache compression techniques.
- Abstract(参考訳): ディープリサーチのような長期にわたるエージェントタスクは、複数のWebページやドキュメントに分散した情報に対するマルチホップ推論を必要とする。
このようなタスクでは、LLMコンテキストは外部検索からのトークンによって支配され、メモリ使用量が急速に増加し、デコード性能が制限される。
いくつかのKVキャッシュ圧縮技術は、長いコンテキスト入力に対して存在するが、既存のヒューリスティックスは、マルチステップ推論モデルを効果的にサポートしていない。
SideQuestは、Large Reasoning Model(LRM)自体を利用して、トークンのコンテキストにおける有用性を推論してKVキャッシュ圧縮を実行する、新しいアプローチである。
この管理プロセスに関連するトークンがモデルメモリに汚染されるのを防ぐために、KVキャッシュ圧縮を主推論タスクと並行して実行される補助タスクとしてフレーム化する。
215個のサンプルでトレーニングしたモデルを用いて評価したところ、SideQuestはエージェントタスクのピークトークン使用量を最大65%削減し、精度の低下を最小限に抑え、ヒューリスティックベースのKVキャッシュ圧縮技術より優れていた。
関連論文リスト
- Hold Onto That Thought: Assessing KV Cache Compression On Reasoning [47.20244197641592]
大規模言語モデル(LLM)は、長いコンテキストタスクにおいて顕著なパフォーマンスを示すが、しばしばメモリ制約によってボトルネックとなる。
重要でないトークンを排除してキャッシュの増大を軽減するために圧縮アルゴリズムが導入された。
提案手法は, 長期化タスクにおいて, 一般的な圧縮戦略の性能をベンチマークするものである。
論文 参考訳(メタデータ) (2025-12-12T19:50:34Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。