論文の概要: CodeComp: Structural KV Cache Compression for Agentic Coding
- arxiv url: http://arxiv.org/abs/2604.10235v1
- Date: Sat, 11 Apr 2026 14:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.915586
- Title: CodeComp: Structural KV Cache Compression for Agentic Coding
- Title(参考訳): CodeComp: エージェント符号化のための構造KVキャッシュ圧縮
- Authors: Qiujiang Chen, Jing Xiong, Chenyang Zhao, Sidi Yang, Ngai Wong,
- Abstract要約: 既存の圧縮法はトークンの重要性を推定するために注意信号に依存している。
静的プログラム解析をLLM推論に組み込んだ,トレーニング不要なKVキャッシュ圧縮フレームワークであるCodeCompを提案する。
CodeCompは、同じメモリ予算の下で、アテンションのみの圧縮ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 31.344543370007568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Agentic code tasks such as fault localization and patch generation require processing long codebases under tight memory constraints, where the Key-Value (KV) cache becomes the primary inference bottleneck. Existing compression methods rely exclusively on attention signals to estimate token importance, systematically discarding structurally critical tokens such as call sites, branch conditions, and assignments that are essential for code understanding. We present CodeComp, a training-free KV cache compression framework that incorporates static program analysis into LLM inference via Code Property Graph priors extracted by Joern. Across bug localization and code generation benchmarks, CodeComp consistently outperforms attention-only compression baselines under equal memory budgets, recovering the majority of full-context accuracy under aggressive KV cache compression, while matching the patch generation quality of uncompressed full-context inference and integrating seamlessly into SGLang-based agentic coding pipelines without model modification.
- Abstract(参考訳): フォールトローカライゼーションやパッチ生成といったエージェントコードタスクは、キーバリュー(KV)キャッシュが主要な推論ボトルネックとなる、厳しいメモリ制約下での長いコードベースの処理を必要とする。
既存の圧縮手法は、トークンの重要性を推定するために注意信号のみに依存しており、コード理解に不可欠な呼び出し場所、分岐条件、代入といった構造的に重要なトークンを体系的に破棄する。
We present CodeComp, a training-free KV cache compression framework that in static program analysis into LLM inference through Code Property Graph extracted by Joern。
バグのローカライゼーションとコード生成ベンチマークを通じて、CodeCompはメモリ予算が等しい場合、注意のみの圧縮ベースラインを一貫して上回り、攻撃的なKVキャッシュ圧縮の下でフルコンテキストの精度の大部分を回復すると同時に、圧縮されていないフルコンテキスト推論のパッチ生成品質に適合し、モデル修正なしでSGLangベースのエージェントコーディングパイプラインにシームレスに統合する。
関連論文リスト
- OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。