論文の概要: CHESS: Context-aware Hierarchical Efficient Semantic Selection for Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2602.20732v1
- Date: Tue, 24 Feb 2026 09:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.707248
- Title: CHESS: Context-aware Hierarchical Efficient Semantic Selection for Long-Context LLM Inference
- Title(参考訳): CHESS:Long-Context LLM推論のためのコンテキスト認識型階層的セマンティック選択
- Authors: Chao Fei, Guozhong Li, Chenxi Liu, Panos Kalnis,
- Abstract要約: 我々は,テキスト・ゴリサム・システムであるtextbfCHESS を提案し,KV-cache 管理システムを設計する。
KVキャッシュの textbf1.% は、textbf4.56$times$高スループットで、低コンテキストの安定した推論を提供する。
- 参考スコア(独自算出の注目度): 9.561727872677173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-context LLMs demand accurate inference at low latency, yet decoding becomes primarily constrained by KV cache as context grows. Prior pruning methods are largely context-agnostic: their token selection ignores step-wise relevance and local semantics, which undermines quality. Moreover, their irregular accesses and selection overheads yield only limited wall-clock speedups. To address this, we propose \textbf{CHESS}, an \textit{algorithm-system co-design} KV-cache management system. Algorithmically, CHESS introduces a context-aware, hierarchical selection policy that dynamically reconstructs a coherent context for the current decoding. System-wise, coarse granularity selection eliminates expensive data movement, fully realizing practical acceleration from theoretical sparsity. Extensive evaluations demonstrate that CHESS surpasses Full-KV quality using only \textbf{1\%} of the KV cache, delivers low-latency stable inference with up to \textbf{4.56$\times$} higher throughput, and consistently outperforms other strong baselines. Code is available at \href{https://anonymous.4open.science/r/CHESS-9958/}{https://anonymous.4open.science/r/CHESS/}.
- Abstract(参考訳): 長いコンテキストのLLMは低レイテンシで正確な推論を要求するが、コンテキストが大きくなるにつれて、復号化は主にKVキャッシュによって制限される。
トークンの選択はステップワイズとローカルセマンティクスを無視し、品質を損なう。
さらに、不規則なアクセスと選択のオーバーヘッドは、壁時計のスピードアップに限られる。
そこで本稿では,KV-cache 管理システムである textbf{CHESS} を提案する。
アルゴリズム的にCHESSは、現在のデコードのためのコヒーレントなコンテキストを動的に再構築するコンテキスト対応の階層的選択ポリシーを導入している。
システムレベルでは、粗粒度選択は高価なデータ移動を排除し、理論的な間隔から実用的な加速を実現する。
大規模な評価では、CHESSはKVキャッシュのtextbf{1\%}のみを使用してフルKV品質を上回り、高スループットのtextbf{4.56$\times$}で低レイテンシの安定な推論を提供する。
コードは \href{https://anonymous.4open.science/r/CHESS-9958/}{https://anonymous.4open.science/r/CHESS/} で公開されている。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。
PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-09T06:00:27Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。