論文の概要: STaR-KV: Spatio-Temporal Adaptive Re-weighting for KV Cache Compression in GUI Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.01790v1
- Date: Mon, 01 Jun 2026 07:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.483402
- Title: STaR-KV: Spatio-Temporal Adaptive Re-weighting for KV Cache Compression in GUI Vision-Language Models
- Title(参考訳): STaR-KV:GUIビジョン言語モデルにおけるKVキャッシュ圧縮のための時空間適応型再重み付け
- Authors: Yuhang Han, Wenzheng Yang, Yujie Chen, Xiangqi Jin, Yaojie Zhang, Siteng Huang, Linfeng Zhang,
- Abstract要約: ビジョンモデルベースのグラフィカルユーザインタフェース(GUI)エージェントは、幅広い自動化機能を示している。
デプロイメントは、インタラクションステップと線形に成長するキーバリュー(KV)キャッシュによってボトルネックされる。
トレーニング不要なKVキャッシュ圧縮フレームワークSTaR-KVを提案する。
- 参考スコア(独自算出の注目度): 21.506039893153332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-model-based graphical user interface (GUI) agents have shown broad automation capabilities, yet deployment is bottlenecked by a key-value (KV) cache that grows linearly with interaction steps. For instance, UI-TARS-1.5-7B consumes 76 GB of GPU memory on merely five screenshots, approaching the capacity of mainstream 80 GB accelerators. Existing KV compression methods share two structural assumptions: aggregating visual-token importance into a single shared saliency map, and applying a fixed top-B cutoff to the fused score distribution. Pilot measurements refute both: spatial specialization lives at the attention-subspace level and migrates across layers, while the score distribution drifts in shape along a trajectory. We propose STaR-KV (Spatio-Temporal Adaptive Re-weighting), a training-free KV cache compression framework that calibrates token importance along three axes: (i) subspace-aware scoring driven by online spatial mutual information; (ii) a temporal stability discount that suppresses redundant cache entries from persistently attended subspaces; and (iii) an entropy-derived temperature that adaptively reshapes the score distribution. Across four GUI benchmarks, STaR-KV achieves the strongest average accuracy among state-of-the-art KV compression methods (e.g., GUIKV, SnapKV) at matched budgets, with no compression-stage FLOPs overhead (-0.07%) and cutting peak GPU memory by nearly 40% at a 20% KV-cache budget. Code is available at https://github.com/kawhiiiileo/STaR-KV.
- Abstract(参考訳): 視覚言語モデルベースのグラフィカルユーザインタフェース(GUI)エージェントは、幅広い自動化機能を示しているが、デプロイメントは、インタラクションステップと線形に成長するキーバリュー(KV)キャッシュによってボトルネックになっている。
例えば、UI-TARS-1.5-7Bは、わずか5つのスクリーンショットで76GBのGPUメモリを消費し、メインストリームの80GBアクセラレーターの容量に近づいている。
既存のKV圧縮法は、単一の共有唾液度マップに視覚的重要度を集約し、融合したスコア分布に固定されたトップBカットオフを適用するという2つの構造的仮定を共有している。
空間的特殊化は注意-空間レベルにあり、層間を移動し、スコア分布は軌道に沿って流れていく。
トレーニング不要なKVキャッシュ圧縮フレームワークであるSTaR-KV(Spatio-Temporal Adaptive Re-weighting)を提案する。
一 オンライン空間情報による部分空間認識得点
二 常駐する部分空間からの冗長キャッシュエントリを抑制する時間的安定割引
三 スコア分布を適応的に再評価するエントロピー温度。
4つのGUIベンチマークで、STaR-KVは最先端のKV圧縮手法(例えばGUIKV、SnapKV)の中で、一致した予算で最も高い平均精度を達成し、圧縮ステージのFLOPのオーバーヘッド(-0.07%)がなく、ピークのGPUメモリを20%のKVキャッシュ予算で40%近くカットする。
コードはhttps://github.com/kawhiiiileo/STaR-KVで公開されている。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression [8.427136461713706]
汎用的で効率的なKVキャッシュ管理フレームワークである textbfPackKV を提案する。
PackKVはレイテンシクリティカルとスループットクリティカルの両方の推論シナリオをサポートする。
論文 参考訳(メタデータ) (2025-12-30T20:05:32Z) - KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models [3.5171501100868876]
KVキャッシュはシーケンス長と埋め込み次元で成長し、しばしばモデル自体のメモリフットプリントを超える。
KV CARは,モデル忠実性を維持しつつ,KVキャッシュストレージを大幅に削減する,統一的で非依存なアーキテクチャフレームワークである。
Wikitext、C4、PIQA、WinograndeデータセットにわたるGPT 2とTinyLLaMAモデルの評価は、KV CARが最大47.85パーセントのKVキャッシュメモリ削減を達成したことを示している。
論文 参考訳(メタデータ) (2025-12-07T08:40:52Z) - KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。
KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。
我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文 参考訳(メタデータ) (2025-11-03T18:20:35Z) - GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness [75.00019285120878]
キーバリュー(KV)キャッシュは、これを緩和することができるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。
既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。
再学習を必要としないGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを紹介する。
論文 参考訳(メタデータ) (2025-10-01T05:37:54Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。