論文の概要: UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding
- arxiv url: http://arxiv.org/abs/2507.22025v2
- Date: Wed, 30 Jul 2025 12:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.869439
- Title: UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding
- Title(参考訳): UI-AGILE: 効果的な強化学習と高精度推論時間グラウンドニングによるGUIエージェントの強化
- Authors: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li,
- Abstract要約: UI-AGILEはGUIエージェントをトレーニング段階と推論段階の両方で強化する包括的フレームワークである。
トレーニングでは,Supervised Fine-Tuningプロセスの一連の改善を提案する。
本稿では,高解像度ディスプレイのグラウンド化精度を劇的に向上させる新しい手法であるDecomposed Grounding with Selectionを提案する。
- 参考スコア(独自算出の注目度): 14.42815380175443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Multimodal Large Language Models (MLLMs) has driven significant advances in Graphical User Interface (GUI) agent capabilities. Nevertheless, existing GUI agent training and inference techniques still suffer from a dilemma for reasoning designs, ineffective reward, and visual noise. To address these issues, we introduce UI-AGILE, a comprehensive framework enhancing GUI agents at both the training and inference stages. For training, we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process: 1) a Continuous Reward function to incentivize high-precision grounding; 2) a "Simple Thinking" reward to balance planning with speed and grounding accuracy; and 3) a Cropping-based Resampling strategy to mitigate the sparse reward problem and improve learning on complex tasks. For inference, we present Decomposed Grounding with Selection, a novel method that dramatically improves grounding accuracy on high-resolution displays by breaking the image into smaller, manageable parts. Experiments show that UI-AGILE achieves the state-of-the-art performance on two benchmarks ScreenSpot-Pro and ScreenSpot-v2. For instance, using both our proposed training and inference enhancement methods brings 23% grounding accuracy improvement over the best baseline on ScreenSpot-Pro.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の出現は、GUI(Graphical User Interface)エージェント機能に大きな進歩をもたらした。
それでも、既存のGUIエージェントのトレーニングと推論技術は、設計の推論、非効率な報酬、視覚ノイズのジレンマに悩まされている。
これらの問題に対処するために、トレーニングと推論の両方の段階でGUIエージェントを強化する包括的なフレームワークであるUI-AGILEを紹介します。
トレーニングのために、スーパーバイザードファインチューニング(SFT)プロセスの一連の改善を提案する。
1) 高精度接地を動機付ける連続逆戻り関数
2 計画のスピードと接地精度のバランスをとるための「シンプルな思考」報酬
3)雑多な報酬問題を緩和し,複雑なタスクの学習を改善するための,クロップベースのリサンプリング戦略。
提案手法は,画像を小さく,管理可能な部分に分割することで,高解像度ディスプレイのグラウンド化精度を劇的に向上させる手法である。
UI-AGILEはScreenSpot-ProとScreenSpot-v2の2つのベンチマークで最先端のパフォーマンスを実現している。
例えば、提案したトレーニングと推論拡張手法の両方を使用することで、ScreenSpot-Proの最高のベースラインよりも23%のグラウンド精度が向上します。
関連論文リスト
- AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents [15.29032612749017]
最近のGUIエージェントは、R1-Zeroパラダイムを再現し、オンライン強化学習(RL)と、オブジェクトの接地前に明確な連鎖推論を結合する。
まず、入力設計、出力評価、ポリシー更新という、トレーニングパイプラインの3つの重要なコンポーネントについて、広範囲な分析実験を行った。
このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-21T17:59:09Z) - Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning [28.291759852111586]
本稿では,GUIエージェントの性能向上のための3つのコア戦略を組み込んだ強化学習(RL)フレームワークを提案する。
3kのトレーニングサンプルだけで、我々の7B-パラメーターモデルも同様の大きさのモデルで最先端の結果が得られる。
特に、ScreenSpot-Proデータセットで47.3%の精度を実現し、UI-TARS-72Bのようなはるかに大きなモデルよりも24.2%のマージンを達成している。
論文 参考訳(メタデータ) (2025-05-18T11:22:04Z) - Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文 参考訳(メタデータ) (2025-03-09T06:14:17Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。