論文の概要: ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay
- arxiv url: http://arxiv.org/abs/2505.16282v1
- Date: Thu, 22 May 2025 06:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.085528
- Title: ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay
- Title(参考訳): ARPO:経験的リプレイによるGUIエージェントのEnd-to-Endポリシー最適化
- Authors: Fanbin Lu, Zhisheng Zhong, Shu Liu, Chi-Wing Fu, Jiaya Jia,
- Abstract要約: Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
- 参考スコア(独自算出の注目度): 88.74638385288773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) as interactive agents for controlling graphical user interfaces (GUIs) presents a unique challenge to optimize long-horizon action sequences with multimodal feedback from complex environments. While recent works have advanced multi-turn reinforcement learning (RL) for reasoning and tool-using capabilities in LLMs, their application to GUI-based agents remains relatively underexplored due to the difficulty of sparse rewards, delayed feedback, and high rollout costs. In this paper, we investigate end-to-end policy optimization for vision-language-based GUI agents with the aim of improving performance on complex, long-horizon computer tasks. We propose Agentic Replay Policy Optimization (ARPO), an end-to-end RL approach that augments Group Relative Policy Optimization (GRPO) with a replay buffer to reuse the successful experience across training iterations. To further stabilize the training process, we propose a task selection strategy that filters tasks based on baseline agent performance, allowing the agent to focus on learning from informative interactions. Additionally, we compare ARPO with offline preference optimization approaches, highlighting the advantages of policy-based methods in GUI environments. Experiments on the OSWorld benchmark demonstrate that ARPO achieves competitive results, establishing a new performance baseline for LLM-based GUI agents trained via reinforcement learning. Our findings underscore the effectiveness of reinforcement learning for training multi-turn, vision-language GUI agents capable of managing complex real-world UI interactions. Codes and models:https://github.com/dvlab-research/ARPO.git.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)を制御する対話型エージェントとして,大規模言語モデル(LLM)を訓練することは,複雑な環境からのマルチモーダルフィードバックによる長距離アクションシーケンスの最適化にユニークな課題である。
近年のLLMにおける多ターン強化学習(RL)は多ターン強化学習(RL)に応用されているが、GUIベースのエージェントへの応用は、スパース報酬の難しさ、フィードバックの遅れ、ロールアウトコストの高さから、比較的未熟である。
本稿では,複雑な長期コンピュータタスクの性能向上を目的とした,視覚言語に基づくGUIエージェントのエンドツーエンドポリシー最適化について検討する。
本稿では,グループ相対的政策最適化(GRPO)をリプレイバッファで拡張し,トレーニングイテレーションを通じて成功した経験を再利用する,エンドツーエンドのRLアプローチであるAgentic Replay Policy Optimization(ARPO)を提案する。
学習過程をより安定させるために,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案し,エージェントが情報的相互作用から学ぶことに集中できるようにする。
さらに、GUI環境におけるポリシーベースの手法の利点を強調し、ARPOとオフライン優先最適化のアプローチを比較した。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示し、強化学習を通じてトレーニングされたLLMベースのGUIエージェントの新たなパフォーマンスベースラインを確立する。
実世界の複雑なUIインタラクションを管理するマルチターン・ビジョン言語GUIエージェントの学習における強化学習の有効性について検討した。
コードとモデル:https://github.com/dvlab-research/ARPO.git
関連論文リスト
- A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文 参考訳(メタデータ) (2025-04-29T06:55:15Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。