論文の概要: Meta-Soft: Leveraging Composable Meta-Tokens for Context-Preserving KV Cache Compression
- arxiv url: http://arxiv.org/abs/2605.22337v2
- Date: Sat, 23 May 2026 16:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.955049
- Title: Meta-Soft: Leveraging Composable Meta-Tokens for Context-Preserving KV Cache Compression
- Title(参考訳): メタソフト:コンテクスト保存KVキャッシュ圧縮のための構成可能なメタトークンを活用する
- Authors: Wei Luo, Yi Huang, Songchen Ma, Huanyu Qu, Jiang Cai, Mingkun Xu,
- Abstract要約: 大規模言語モデルで使用されるKVキャッシュは、線形的に時間の複雑さが増大する。
現在のKVキャッシュ消去法は、KVペアの重要性を評価するためにクエリとして静的パラメータセットに依存している。
本稿では,プローブ駆動型コンテキスト統合に基づく動的圧縮フレームワークMeta-Softを提案する。
- 参考スコア(独自算出の注目度): 12.589754555104768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The KV cache used in large language models has linearly growing time complexity, so LLMs face memory blow-up and reduced decoding efficiency when they process long contexts. Current KV Cache eviction has become an important research direction; however, existing methods based on fixed Soft Tokens (e.g., Judge Q) rely on a static parameter set as the query to evaluate the importance of KV pairs, so they cannot adapt dynamically to different input prompts, and they cannot precisely capture complex and changing task relevance. Also, evicted KV pairs are discarded permanently, so this causes irreversible information loss and context breaks. To address this problem, we propose Meta-Soft, a dynamic compression framework based on probe-driven context integration. Specifically, we build a meta-library with a learnable orthogonal basis matrix $\mathcal{L}$, and we use a selector network with Gumbel-Softmax to produce differentiable sparse combination weights, so we dynamically synthesize the most targeted $k$ Soft Tokens from the input prompt features. We append these Soft Tokens to the end of the input sequence to probe key information. We also introduce an attention-flow based integration mechanism, which redistributes the semantic information of removed tokens into retained tokens, and this keeps the dropped context information effectively. Experiments on multiple datasets show that our method outperforms existing state-of-the-art eviction methods and provides a new solution for KV Cache compression.
- Abstract(参考訳): 大規模言語モデルで使用されるKVキャッシュは、時間的複雑さが線形に増加するため、LLMはメモリの爆発に直面し、長いコンテキストを処理する際にデコード効率を低下させる。
現在のKVキャッシュ消去は重要な研究方向となっているが、固定ソフトトークン(例えば、判断Q)に基づく既存の手法では、KVペアの重要性を評価するためのクエリとして静的パラメータセットを頼りにしているため、異なる入力プロンプトに動的に適応できず、複雑なタスクの関連性を正確に把握できない。
また、排除されたKVペアは永久に破棄されるため、これは不可逆的な情報損失とコンテキスト破壊を引き起こす。
そこで本稿では,プローブ駆動型コンテキスト統合に基づく動的圧縮フレームワークMeta-Softを提案する。
具体的には、学習可能な直交基底行列 $\mathcal{L}$ のメタライブラリを構築し、Gumbel-Softmax を用いたセレクタネットワークを用いて、微分可能なスパース結合重み付けを生成し、入力プロンプト特徴から最も標的となる$k$Soft Tokensを動的に合成する。
入力シーケンスの最後にこれらのソフトトークンを付加し、キー情報を探索する。
また、削除されたトークンのセマンティック情報を保持トークンに再分割するアテンションフローベースの統合機構を導入し、削除されたコンテキスト情報を効果的に保持する。
複数のデータセットに対する実験により,本手法は既存の最先端の消去手法よりも優れ,KVキャッシュ圧縮のための新しいソリューションを提供することが示された。
関連論文リスト
- Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。
本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。
クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文 参考訳(メタデータ) (2026-02-12T18:15:08Z) - SemShareKV: Efficient KVCache Sharing for Semantically Similar Prompts via Token-Level LSH Matching [0.8307668828380427]
大規模言語モデル(LLM)のためのKVキャッシュ共有圧縮フレームワークである textitSemShareKV を提案する。
正確なトークンマッチに頼る代わりに、SemShareKVは、トークン埋め込みにローカリティ感受性ハッシュ(LSH)を使用してファジィトークンマッチングを適用し、位置情報をよりよく保存するためにロータリー位置埋め込み(Rotary Position Embedding、RoPE)を組み込んでいる。
多様な要約データセットの実験では、最大6.25$times$スピードアップと42%低いGPUメモリ使用率で5kトークンが入力され、品質劣化は無視できる。
論文 参考訳(メタデータ) (2025-09-29T14:16:13Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens [20.044306399439265]
LLM(Large Language Models)は、長いコンテキスト入力を扱う際に、計算の非効率性と冗長な処理に直面する。
我々は,LLMの文脈関連性に関する本質的な理解を活用して圧縮を誘導する簡易かつ効果的な手法であるDAST(Dynamic Allocation of Soft Tokens)を提案する。
複数のベンチマークでの実験結果から、DASTが最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:55:13Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。