Fugu-MT 論文翻訳(概要): UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

論文の概要: UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

arxiv url: http://arxiv.org/abs/2507.22025v2
Date: Wed, 30 Jul 2025 12:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 11:57:45.869439
Title: UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding
Title（参考訳）: UI-AGILE: 効果的な強化学習と高精度推論時間グラウンドニングによるGUIエージェントの強化
Authors: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li,
Abstract要約: UI-AGILEはGUIエージェントをトレーニング段階と推論段階の両方で強化する包括的フレームワークである。トレーニングでは,Supervised Fine-Tuningプロセスの一連の改善を提案する。本稿では,高解像度ディスプレイのグラウンド化精度を劇的に向上させる新しい手法であるDecomposed Grounding with Selectionを提案する。
参考スコア（独自算出の注目度）: 14.42815380175443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Multimodal Large Language Models (MLLMs) has driven significant advances in Graphical User Interface (GUI) agent capabilities. Nevertheless, existing GUI agent training and inference techniques still suffer from a dilemma for reasoning designs, ineffective reward, and visual noise. To address these issues, we introduce UI-AGILE, a comprehensive framework enhancing GUI agents at both the training and inference stages. For training, we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process: 1) a Continuous Reward function to incentivize high-precision grounding; 2) a "Simple Thinking" reward to balance planning with speed and grounding accuracy; and 3) a Cropping-based Resampling strategy to mitigate the sparse reward problem and improve learning on complex tasks. For inference, we present Decomposed Grounding with Selection, a novel method that dramatically improves grounding accuracy on high-resolution displays by breaking the image into smaller, manageable parts. Experiments show that UI-AGILE achieves the state-of-the-art performance on two benchmarks ScreenSpot-Pro and ScreenSpot-v2. For instance, using both our proposed training and inference enhancement methods brings 23% grounding accuracy improvement over the best baseline on ScreenSpot-Pro.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の出現は、GUI(Graphical User Interface)エージェント機能に大きな進歩をもたらした。それでも、既存のGUIエージェントのトレーニングと推論技術は、設計の推論、非効率な報酬、視覚ノイズのジレンマに悩まされている。これらの問題に対処するために、トレーニングと推論の両方の段階でGUIエージェントを強化する包括的なフレームワークであるUI-AGILEを紹介します。トレーニングのために、スーパーバイザードファインチューニング(SFT)プロセスの一連の改善を提案する。 1) 高精度接地を動機付ける連続逆戻り関数 2 計画のスピードと接地精度のバランスをとるための「シンプルな思考」報酬 3)雑多な報酬問題を緩和し,複雑なタスクの学習を改善するための,クロップベースのリサンプリング戦略。提案手法は,画像を小さく,管理可能な部分に分割することで,高解像度ディスプレイのグラウンド化精度を劇的に向上させる手法である。 UI-AGILEはScreenSpot-ProとScreenSpot-v2の2つのベンチマークで最先端のパフォーマンスを実現している。例えば、提案したトレーニングと推論拡張手法の両方を使用することで、ScreenSpot-Proの最高のベースラインよりも23%のグラウンド精度が向上します。

関連論文リスト

GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。 UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-27T17:58:06Z)
GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents [15.29032612749017]
最近のGUIエージェントは、R1-Zeroパラダイムを再現し、オンライン強化学習(RL)と、オブジェクトの接地前に明確な連鎖推論を結合する。まず、入力設計、出力評価、ポリシー更新という、トレーニングパイプラインの3つの重要なコンポーネントについて、広範囲な分析実験を行った。このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。
論文参考訳（メタデータ） (2025-05-21T17:59:09Z)
Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning [28.291759852111586]
本稿では,GUIエージェントの性能向上のための3つのコア戦略を組み込んだ強化学習(RL)フレームワークを提案する。 3kのトレーニングサンプルだけで、我々の7B-パラメーターモデルも同様の大きさのモデルで最先端の結果が得られる。特に、ScreenSpot-Proデータセットで47.3%の精度を実現し、UI-TARS-72Bのようなはるかに大きなモデルよりも24.2%のマージンを達成している。
論文参考訳（メタデータ） (2025-05-18T11:22:04Z)
Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文参考訳（メタデータ） (2025-04-22T17:52:42Z)
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners [41.22438639369124]
InfiGUI-R1は、Actor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントである。本研究では,教師モデルからMLLMへのクロスモーダル空間推論能力の伝達に空間推論蒸留を用いる。 Reinforcement Learning(強化学習)を用いて基礎的推論を熟考する。
論文参考訳（メタデータ） (2025-04-19T09:25:55Z)
Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文参考訳（メタデータ） (2025-03-09T06:14:17Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文参考訳（メタデータ） (2024-11-18T05:47:12Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。