論文の概要: GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness
- arxiv url: http://arxiv.org/abs/2510.00536v1
- Date: Wed, 01 Oct 2025 05:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.400824
- Title: GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness
- Title(参考訳): GUI-KV: 時空間認識を用いたKVキャッシュによる効率的なGUIエージェント
- Authors: Kung-Hsiang Huang, Haoyi Qiu, Yutong Dai, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: キーバリュー(KV)キャッシュは、これを緩和することができるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。
既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。
再学習を必要としないGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを紹介する。
- 参考スコア(独自算出の注目度): 75.00019285120878
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Graphical user interface (GUI) agents built on vision-language models have emerged as a promising approach to automate human-computer workflows. However, they also face the inefficiency challenge as they process long sequences of high-resolution screenshots and solving long-horizon tasks, making inference slow, costly and memory-bound. While key-value (KV) caching can mitigate this, storing the full cache is prohibitive for image-heavy contexts. Existing cache-compression methods are sub-optimal as they do not account for the spatial and temporal redundancy of GUIs. In this work, we first analyze attention patterns in GUI agent workloads and find that, unlike in natural images, attention sparsity is uniformly high across all transformer layers. This insight motivates a simple uniform budget allocation strategy, which we show empirically outperforms more complex layer-varying schemes. Building on this, we introduce GUI-KV, a plug-and-play KV cache compression method for GUI agents that requires no retraining. GUI-KV combines two novel techniques: (i) spatial saliency guidance, which augments attention scores with the L2 norm of hidden states to better preserve semantically important visual tokens, and (ii) temporal redundancy scoring, which projects previous frames' keys onto the current frame's key subspace to preferentially prune redundant history. Across standard GUI agent benchmarks and models, GUI-KV outperforms competitive KV compression baselines, closely matching full-cache accuracy at modest budgets. Notably, in a 5-screenshot setting on the AgentNetBench benchmark, GUI-KV reduces decoding FLOPs by 38.9% while increasing step accuracy by 4.1% over the full-cache baseline. These results demonstrate that exploiting GUI-specific redundancies enables efficient and reliable agent performance.
- Abstract(参考訳): 視覚言語モデル上に構築されたグラフィカルユーザインタフェース(GUI)エージェントは、人間のコンピュータワークフローを自動化するための有望なアプローチとして登場した。
しかし、彼らは高解像度のスクリーンショットの長いシーケンスを処理し、長い水平タスクを解決し、推論が遅く、コストがかかり、メモリバウンドになるため、非効率な課題に直面している。
キー値(KV)キャッシュは、これを緩和できるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。
既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。
本稿では,GUIエージェントのワークロードの注意パターンをまず分析し,自然画像とは異なり,すべてのトランスフォーマー層で注目空間が均一に高いことを確認する。
この洞察は、単純な均一な予算配分戦略を動機付け、より複雑な層変化スキームを実証的に上回ることを示す。
そこで我々はGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを導入する。
GUI-KVは2つの新しい技術を組み合わせている。
一 注意点を隠蔽状態のL2ノルムで強化し、意味的に重要な視覚的トークンを保存し、
(II)従来のフレームのキーを現在のフレームのキー部分空間に投影し、優先的に冗長な履歴を出力する時間的冗長性スコアリング。
標準のGUIエージェントベンチマークとモデル全体で、GUI-KVは競争力のあるKV圧縮ベースラインより優れており、控えめな予算でフルキャッシュの精度と密に一致している。
特に、AgenNetBenchベンチマークの5画面設定では、GUI-KVはFLOPのデコードを38.9%削減し、全キャッシュベースラインよりもステップ精度を4.1%向上させた。
これらの結果から,GUI固有の冗長性を活用すれば,効率よく信頼性の高いエージェント性能が得られることが示された。
関連論文リスト
- Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression [29.993062853291622]
効率的なGUIエージェントに適したトレーニング不要なKVキャッシュ圧縮フレームワークST-Liteを提案する。
キャッシュ予算は10-20%に過ぎず、ST-Liteは2.45倍のデコード高速化を実現し、フルキャッシュのベースラインに比べて同等かそれ以上の性能を維持している。
論文 参考訳(メタデータ) (2026-02-27T01:27:20Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。
WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。
提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文 参考訳(メタデータ) (2025-03-23T03:36:52Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [68.71450519846081]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SnapKV: LLM Knows What You are Looking for Before Generation [22.138577426977907]
SnapKVは、キーバリューキャッシュサイズを効率的に最小化する、微調整不要のアプローチである。
現実世界のアプリケーションで同等のパフォーマンスを提供する。
さらなる研究は、SnapKVの実用的な応用の可能性を示している。
論文 参考訳(メタデータ) (2024-04-22T17:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。