論文の概要: Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents
- arxiv url: http://arxiv.org/abs/2602.23235v1
- Date: Thu, 26 Feb 2026 17:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.80788
- Title: Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents
- Title(参考訳): 効率的な高分解能GUIエージェントのための時空間トケンプルーニング
- Authors: Zhou Xu, Bowen Zhou, Qi Wang, Shuwen Feng, Jingyu Xiao,
- Abstract要約: GUIPrunerは、高解像度のGUIナビゲーションに適したトレーニング不要のフレームワークである。
時間分解能(TAR)とSSP(Stratified Structure-Aware Pruning)の相乗効果
常に最先端の性能を達成し、高解像度圧縮下での大規模モデルで観測される崩壊を効果的に防止する。
- 参考スコア(独自算出の注目度): 10.559617160878227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pure-vision GUI agents provide universal interaction capabilities but suffer from severe efficiency bottlenecks due to the massive spatiotemporal redundancy inherent in high-resolution screenshots and historical trajectories. We identify two critical misalignments in existing compression paradigms: the temporal mismatch, where uniform history encoding diverges from the agent's "fading memory" attention pattern, and the spatial topology conflict, where unstructured pruning compromises the grid integrity required for precise coordinate grounding, inducing spatial hallucinations. To address these challenges, we introduce GUIPruner, a training-free framework tailored for high-resolution GUI navigation. It synergizes Temporal-Adaptive Resolution (TAR), which eliminates historical redundancy via decay-based resizing, and Stratified Structure-aware Pruning (SSP), which prioritizes interactive foregrounds and semantic anchors while safeguarding global layout. Extensive evaluations across diverse benchmarks demonstrate that GUIPruner consistently achieves state-of-the-art performance, effectively preventing the collapse observed in large-scale models under high compression. Notably, on Qwen2-VL-2B, our method delivers a 3.4x reduction in FLOPs and a 3.3x speedup in vision encoding latency while retaining over 94% of the original performance, enabling real-time, high-precision navigation with minimal resource consumption.
- Abstract(参考訳): 純粋なGUIエージェントは、普遍的な対話機能を提供するが、高解像度のスクリーンショットや歴史的な軌跡に固有の大規模な時空間冗長性のために、深刻な効率のボトルネックに悩まされる。
既存の圧縮パラダイムでは、エージェントの「偽記憶」注意パターンから一様履歴を符号化する時間的ミスマッチと、非構造的プルーニングが正確な座標接地に必要な格子の整合性を損なう空間的トポロジコンフリクトの2つの重要な誤りを識別し、空間的幻覚を誘発する。
これらの課題に対処するために、高解像度GUIナビゲーションに適したトレーニング不要のフレームワークであるGUIPrunerを紹介した。
テンポラル・アダプティブ・レゾリューション(TAR)とSSP(Stratified Structure-Aware Pruning)は、グローバルなレイアウトを保護しながら、対話的なフォアグラウンドとセマンティックアンカーを優先する。
多様なベンチマークによる広範囲な評価は、GUIPrunerが一貫して最先端のパフォーマンスを実現し、高い圧縮下での大規模モデルで観測される崩壊を効果的に防止していることを示している。
特にQwen2-VL-2Bでは、FLOPの3.4倍の削減と3.3倍のスピードアップを実現し、元の性能の94%以上を維持しながら、リソース消費を最小限に抑えたリアルタイム高精度ナビゲーションを実現している。
関連論文リスト
- Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。
提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。