Fugu-MT 論文翻訳(概要): Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

論文の概要: Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

arxiv url: http://arxiv.org/abs/2602.23235v1
Date: Thu, 26 Feb 2026 17:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.80788
Title: Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents
Title（参考訳）: 効率的な高分解能GUIエージェントのための時空間トケンプルーニング
Authors: Zhou Xu, Bowen Zhou, Qi Wang, Shuwen Feng, Jingyu Xiao,
Abstract要約: GUIPrunerは、高解像度のGUIナビゲーションに適したトレーニング不要のフレームワークである。時間分解能(TAR)とSSP(Stratified Structure-Aware Pruning)の相乗効果常に最先端の性能を達成し、高解像度圧縮下での大規模モデルで観測される崩壊を効果的に防止する。
参考スコア（独自算出の注目度）: 10.559617160878227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pure-vision GUI agents provide universal interaction capabilities but suffer from severe efficiency bottlenecks due to the massive spatiotemporal redundancy inherent in high-resolution screenshots and historical trajectories. We identify two critical misalignments in existing compression paradigms: the temporal mismatch, where uniform history encoding diverges from the agent's "fading memory" attention pattern, and the spatial topology conflict, where unstructured pruning compromises the grid integrity required for precise coordinate grounding, inducing spatial hallucinations. To address these challenges, we introduce GUIPruner, a training-free framework tailored for high-resolution GUI navigation. It synergizes Temporal-Adaptive Resolution (TAR), which eliminates historical redundancy via decay-based resizing, and Stratified Structure-aware Pruning (SSP), which prioritizes interactive foregrounds and semantic anchors while safeguarding global layout. Extensive evaluations across diverse benchmarks demonstrate that GUIPruner consistently achieves state-of-the-art performance, effectively preventing the collapse observed in large-scale models under high compression. Notably, on Qwen2-VL-2B, our method delivers a 3.4x reduction in FLOPs and a 3.3x speedup in vision encoding latency while retaining over 94% of the original performance, enabling real-time, high-precision navigation with minimal resource consumption.
Abstract（参考訳）: 純粋なGUIエージェントは、普遍的な対話機能を提供するが、高解像度のスクリーンショットや歴史的な軌跡に固有の大規模な時空間冗長性のために、深刻な効率のボトルネックに悩まされる。既存の圧縮パラダイムでは、エージェントの「偽記憶」注意パターンから一様履歴を符号化する時間的ミスマッチと、非構造的プルーニングが正確な座標接地に必要な格子の整合性を損なう空間的トポロジコンフリクトの2つの重要な誤りを識別し、空間的幻覚を誘発する。これらの課題に対処するために、高解像度GUIナビゲーションに適したトレーニング不要のフレームワークであるGUIPrunerを紹介した。テンポラル・アダプティブ・レゾリューション(TAR)とSSP(Stratified Structure-Aware Pruning)は、グローバルなレイアウトを保護しながら、対話的なフォアグラウンドとセマンティックアンカーを優先する。多様なベンチマークによる広範囲な評価は、GUIPrunerが一貫して最先端のパフォーマンスを実現し、高い圧縮下での大規模モデルで観測される崩壊を効果的に防止していることを示している。特にQwen2-VL-2Bでは、FLOPの3.4倍の削減と3.3倍のスピードアップを実現し、元の性能の94%以上を維持しながら、リソース消費を最小限に抑えたリアルタイム高精度ナビゲーションを実現している。

関連論文リスト

Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文参考訳（メタデータ） (2026-02-06T16:39:10Z)
PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。 bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文参考訳（メタデータ） (2025-10-23T03:52:39Z)
Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。 EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-10-04T15:23:07Z)
DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion [28.146811420532455]
DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
論文参考訳（メタデータ） (2025-09-07T11:43:11Z)
Occupancy Learning with Spatiotemporal Memory [39.41175479685905]
本稿では,時間的整合性のある3次元占有特徴を効果的に学習するシーンレベルの占有表現学習フレームワークを提案する。提案手法は,多フレーム入力間の時間的依存性を利用して,3次元占有予測タスクの時間的表現を著しく向上させる。
論文参考訳（メタデータ） (2025-08-06T17:59:52Z)
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-23T17:57:16Z)
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文参考訳（メタデータ） (2025-06-11T18:34:57Z)
Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文参考訳（メタデータ） (2025-05-27T07:53:50Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
HDNet: High-resolution Dual-domain Learning for Spectral Compressive Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文参考訳（メタデータ） (2022-03-04T06:37:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。