論文の概要: Compress to Focus: Efficient Coordinate Compression for Policy Optimization in Multi-Turn GUI Agents
- arxiv url: http://arxiv.org/abs/2601.11631v1
- Date: Wed, 14 Jan 2026 03:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.228253
- Title: Compress to Focus: Efficient Coordinate Compression for Policy Optimization in Multi-Turn GUI Agents
- Title(参考訳): Compress to Focus: マルチターンGUIエージェントのポリシー最適化のための効率的なコーディネート圧縮
- Authors: Yurun Song, Jiong Yin, Rongjunchen Zhang, Ian G. Harris,
- Abstract要約: マルチターンGUIエージェントは、相互作用履歴が蓄積されるにつれて、厳しいコンテキストインフレーションに悩まされる。
既存の戦略は、切り離しによって長期的コンテキストを犠牲にするか、トークンプルーニングを通じて空間構造を妥協するかのいずれかである。
マルチターンGUIエージェントに対して,視覚的圧縮とポリシー最適化を併用した効率的なポリシー最適化フレームワークであるCCPOを提案する。
- 参考スコア(独自算出の注目度): 3.232713620077098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn GUI agents enable complex task completion through sequential decision-making, but suffer from severe context inflation as interaction history accumulates. Existing strategies either sacrifice long-term context via truncation or compromise spatial structure through token pruning. In this paper, we propose Coordinate Compression Policy Optimization (CCPO), an efficient policy optimization framework that couples visual compression with policy optimization for multi-turn GUI agents. CCPO introduces Coordinate-Aware Spatial Compression (CASC), which aggregates coordinates from multiple rollouts to capture target-relevant regions and progressively narrow historical attention around key visual areas. From interactions across rollouts, CASC adaptively constructs attention boundaries that concentrate computation on the most informative regions of the scene. We further design a Distance-Based Advantage that provides fine-grained learning signals based on distance rather than binary correctness, improving both grounding accuracy and compression quality. Extensive experiments demonstrate that CCPO achieves SOTA performance across four benchmarks with up to 55% token compression and 3.8$\times$ training speedup.
- Abstract(参考訳): マルチターンGUIエージェントは、シーケンシャルな意思決定を通じて複雑なタスク完了を可能にするが、インタラクション履歴が蓄積されるにつれて、厳しいコンテキストインフレーションに悩まされる。
既存の戦略は、切り離しによって長期的コンテキストを犠牲にするか、トークンプルーニングを通じて空間構造を妥協するかのいずれかである。
本稿では,視覚的圧縮と多ターンGUIエージェントのポリシー最適化を結合した効率的なポリシー最適化フレームワークであるコーディネート圧縮ポリシー最適化(CCPO)を提案する。
CCPOはコーディネート・アウェア空間圧縮(CASC)を導入し、複数のロールアウトから座標を集約し、ターゲット関連領域を捕捉し、重要な視覚領域に関する歴史的関心を徐々に狭めている。
ロールアウト間の相互作用から、CASCはシーンの最も情報性の高い領域に計算を集中させるアテンションバウンダリを適応的に構築する。
さらに、二分精度よりも距離に基づく微粒な学習信号を提供する距離ベースアドバンテージを設計し、基底精度と圧縮品質の両方を改善した。
CCPOは最大55%のトークン圧縮と3.8$\timesのトレーニングスピードアップを持つ4つのベンチマークでSOTA性能を達成した。
関連論文リスト
- BiCoLoR: Communication-Efficient Optimization with Bidirectional Compression and Local Training [50.334494587223304]
BiCoLoRは、ローカルトレーニングと圧縮という2つの広く使われている戦略を組み合わせた通信効率の最適化アルゴリズムである。
BiCoLoRは既存のアルゴリズムより優れており、通信効率の新たな標準を確立している。
論文 参考訳(メタデータ) (2026-01-18T13:23:27Z) - ELiC: Efficient LiDAR Geometry Compression via Cross-Bit-depth Feature Propagation and Bag-of-Encoders [6.993324496891383]
LiDAR圧縮は、低ビット幅から高ビット幅までのボクセル占有率を符号化する。
ELiCは,クロスビット深度特徴伝搬,Bag-of-Encoders選択方式,Morton-order-reserving階層を組み合わせたリアルタイムフレームワークである。
論文 参考訳(メタデータ) (2025-11-18T02:58:16Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文 参考訳(メタデータ) (2025-06-11T03:43:30Z) - Hierarchical Attention Networks for Lossless Point Cloud Attribute Compression [22.234604407822673]
本稿では,点雲の属性圧縮のための階層的注意コンテキストモデルを提案する。
単純で効果的なレベル・オブ・ディーテール(LoD)構造を導入し、粗い粒度表現を生成する。
同じ改善レベル内の点は並列に符号化され、共通のコンテキストポイントグループを共有する。
論文 参考訳(メタデータ) (2025-04-01T07:14:10Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Convergence and Privacy of Decentralized Nonconvex Optimization with
Gradient Clipping and Communication Compression [31.161598424963934]
本稿では、圧縮を伴う分散非通信最適化における一般的な戦略の役割を理解するための第一歩を踏み出す。
ミニバッチ摂動前後の2種類の勾配クリッピングを提案する。
論文 参考訳(メタデータ) (2023-05-17T02:13:18Z) - Dynamic Point Cloud Geometry Compression Using Multiscale Inter
Conditional Coding [27.013814232906817]
この研究は、Point Cloud Geometry Compression (PCGC)のために開発されたMultiscale Sparse Representation (MSR)フレームワークを拡張し、動的PCGCをサポートする。
先行するポイント・クラウド・ジオメトリ(PCG)フレームの再構築は、段階的にダウンスケール化され、マルチスケールの時間的前兆が生成される。
論文 参考訳(メタデータ) (2023-01-28T11:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。