論文の概要: CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks
- arxiv url: http://arxiv.org/abs/2508.11360v1
- Date: Fri, 15 Aug 2025 09:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.842986
- Title: CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks
- Title(参考訳): CRAFT-GUI:GUIタスクのためのカリキュラム強化エージェント
- Authors: Songqin Nong, Jingxuan Xu, Sheng Zhou, Jianfeng Chen, Xiaoxuan Tang, Tao Jiang, Wenhao Xu,
- Abstract要約: Reinforcement Learning (RL) は動的対話型GUI環境においてエージェントのパフォーマンスを効果的に向上させる。
ほとんどのアプローチはタスク固有のニュアンスを1つの粗い報酬に分解し、エージェントに非効率なポリシー更新をもたらす均一な信号を残す。
我々は,グループ相対政策最適化(GRPO)に基づくカリキュラム学習フレームワークであるCRAFT-GUIを提案する。
- 参考スコア(独自算出の注目度): 11.121687042616974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous agents become adept at understanding and interacting with graphical user interface (GUI) environments, a new era of automated task execution is emerging. Recent studies have demonstrated that Reinforcement Learning (RL) can effectively enhance agents' performance in dynamic interactive GUI environments. However, these methods face two key limitations: (1) they overlook the significant variation in difficulty across different GUI tasks by treating the entire training data as a uniform set, which hampers the agent's ability to adapt its learning process; and (2) most approaches collapse task-specific nuances into a single, coarse reward, leaving the agent with a uniform signal that yields inefficient policy updates. To address these limitations, we propose CRAFT-GUI, a curriculum learning framework based on Group Relative Policy Optimization (GRPO) that explicitly accounts for the varying difficulty across trajectories. To enable more fine-grained policy optimization, we design a reward function that combines simple rule-based signals with model-judged evaluation, providing richer and more nuanced feedback during training. Experimental results demonstrate that our method achieves significant improvements over previous state-of-the-art approaches, outperforming them by 5.6% on public benchmarks Android Control and 10.3% on our internal online benchmarks, respectively. These findings empirically validate the effectiveness of integrating reinforcement learning with curriculum learning in GUI interaction tasks.
- Abstract(参考訳): 自律エージェントはグラフィカルユーザインタフェース(GUI)環境の理解と対話に長けているため、タスクの自動実行の新しい時代が生まれつつある。
近年の研究では、動的対話型GUI環境において、強化学習(RL)がエージェントの性能を効果的に向上できることが示されている。
しかし、これらの手法は、(1)訓練データ全体を一様集合として扱い、エージェントの学習プロセスに適応する能力を損なうことにより、異なるGUIタスク間での困難さの顕著なばらつきを見逃し、(2)タスク固有のニュアンスを1つの粗い報酬に分解し、エージェントに非効率なポリシー更新をもたらす一様信号を残す、という2つの重要な制限に直面している。
これらの制約に対処するために,グループ相対政策最適化(GRPO)に基づくカリキュラム学習フレームワークであるCRAFT-GUIを提案する。
よりきめ細かいポリシー最適化を実現するため、簡単なルールベースの信号とモデルジャッジド評価を組み合わせた報酬関数を設計し、トレーニング中によりリッチでニュアンスなフィードバックを提供する。
実験の結果,提案手法は従来の最先端手法よりも大幅に改善され,Android Controlの公開ベンチマークでは5.6%,オンラインベンチマークでは10.3%に向上した。
これらの結果は,GUIインタラクションタスクにおける強化学習とカリキュラム学習の統合の有効性を実証的に検証した。
関連論文リスト
- InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization [41.584851150085036]
根本的な課題は、自然言語の指示をしっかりと基礎づけることである。
これは正確な空間アライメントを必要とし、各要素の座標を正確に特定する。
本稿では,新たな政策最適化フレームワークである適応探索政策最適化(AEPO)を提案する。
AEPOでトレーニングされたモデルであるInfiGUI-G1-3BとInfiGUI-G1-7Bは、新しい最先端の結果を確立します。
論文 参考訳(メタデータ) (2025-08-07T17:49:56Z) - CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文 参考訳(メタデータ) (2025-08-05T21:33:36Z) - UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding [16.939058522414836]
トレーニングと推論の両方においてGUIエージェントを強化するUI-AGILEを導入する。
トレーニングのために,スーパービジョン・ファイン・チューニング(SFT)プロセスの一連の改善を提案する。
推測のために,高解像度ディスプレイのグラウンド化精度を劇的に向上させるために,選択による分解グラウンド化を提案する。
論文 参考訳(メタデータ) (2025-07-29T17:22:07Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。