Fugu-MT 論文翻訳(概要): Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

論文の概要: Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

arxiv url: http://arxiv.org/abs/2603.00188v1
Date: Fri, 27 Feb 2026 01:27:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.093277
Title: Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression
Title（参考訳）: 訓練不要KVキャッシュ圧縮による高効率長距離GUIエージェント
Authors: Bowen Zhou, Zhou Xu, Wanli Li, Jingyu Xiao, Haoqian Wang,
Abstract要約: 効率的なGUIエージェントに適したトレーニング不要なKVキャッシュ圧縮フレームワークST-Liteを提案する。キャッシュ予算は10-20%に過ぎず、ST-Liteは2.45倍のデコード高速化を実現し、フルキャッシュのベースラインに比べて同等かそれ以上の性能を維持している。
参考スコア（独自算出の注目度）: 29.993062853291622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (VLMs) have emerged as powerful engines for autonomous GUI agents, yet their deployment is severely constrained by the substantial memory footprint and latency of the Key-Value (KV) cache during long-horizon interactions. While existing cache compression methods have proven effective for LLMs, we empirically demonstrate that they suffer from suboptimal performance in GUI scenarios due to a fundamental misalignment: unlike general visual tasks where attention sparsity varies across layers, GUI attention patterns exhibit uniform high-sparsity across all transformer layers. Motivated by this insight, we propose ST-Lite, a training-free KV cache compression framework tailored for efficient GUI agents that explicitly addresses the dynamic spatio-trajectory dependencies within GUI data streams. ST-Lite introduces a novel dual-branch scoring policy incorporating Component-centric Spatial Saliency (CSS) and Trajectory-aware Semantic Gating (TSG). Specifically, CSS preserves the structural integrity of interactive UI elements by evaluating local neighborhood saliency, while TSG mitigates historical redundancy by dynamically filtering visually repetitive KV pairs within the interaction trajectory. Extensive evaluations demonstrate that with only a 10-20% cache budget, ST-Lite achieves a 2.45x decoding acceleration while maintaining comparable or even superior performance compared to full-cache baselines, offering a scalable solution for resource-constrained GUI agents.
Abstract（参考訳）: VLM(Large Vision-Language Models)は、自律的なGUIエージェントのための強力なエンジンとして登場したが、そのデプロイメントは、長時間水平相互作用中にキーバリュー(KV)キャッシュのかなりのメモリフットプリントと遅延によって厳しく制約されている。既存のキャッシュ圧縮手法はLCMに有効であることが実証されているが、基本的なミスアライメントのため、GUIシナリオの準最適性能に悩まされていることを実証的に示す。この知見に触発されたST-Liteは,GUIデータストリーム内の動的スペース・トラジェクトリ依存性に明示的に対処する,効率的なGUIエージェントに適した,トレーニング不要なKVキャッシュ圧縮フレームワークである。 ST-Liteは、CSS(Component-centric Spatial Saliency)とTSG(Trajectory-aware Semantic Gating)を取り入れた、新しいデュアルブランチスコアリングポリシーを導入した。特に、CSSは局所的な近傍の塩分濃度を評価することによってインタラクティブUI要素の構造的整合性を保ち、TSGは相互作用軌道内で視覚的に反復的なKVペアを動的にフィルタリングすることで歴史的冗長性を緩和する。大規模な評価により、ST-Liteは10-20%のキャッシュ予算で2.45倍のデコード高速化を実現し、フルキャッシュのベースラインと同等かそれ以上の性能を維持し、リソース制約のあるGUIエージェントにスケーラブルなソリューションを提供する。

関連論文リスト

DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。 DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文参考訳（メタデータ） (2026-02-08T15:14:36Z)
Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models [8.944739362562494]
既存のKVキャッシュ消去戦略は、視覚トークンとテキストトークンの間の不均一な注意分布に対処できない。 MLLMにおけるテキスト-視覚トークンの相互作用を最適化するKVキャッシュ消去フレームワークである階層適応消去(HAE)を提案する。 HAEは層間のKVキャッシュ使用を最小化し、インデックスブロードキャストによる計算オーバーヘッドを低減し、理論的には優れた情報完全性と低いエラー境界を保証する。
論文参考訳（メタデータ） (2026-02-02T15:01:44Z)
HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference [14.17979669446161]
トレーニング不要な動的圧縮フレームワークであるHeteroCacheを提案する。 We show that HeteroCache achieves state-of-the-art performance on multiple long-context benchmarks and accelerates decoding by up $3times$ in the original model in the 224K context。
論文参考訳（メタデータ） (2026-01-20T07:35:06Z)
GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness [75.00019285120878]
キーバリュー(KV)キャッシュは、これを緩和することができるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。再学習を必要としないGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを紹介する。
論文参考訳（メタデータ） (2025-10-01T05:37:54Z)
OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。 OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文参考訳（メタデータ） (2025-09-25T21:42:27Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-03-31T11:13:18Z)
TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。 PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-09T06:00:27Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文参考訳（メタデータ） (2024-10-01T06:23:17Z)
CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文参考訳（メタデータ） (2023-09-27T16:12:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。