論文の概要: ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay
- arxiv url: http://arxiv.org/abs/2505.16282v1
- Date: Thu, 22 May 2025 06:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.085528
- Title: ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay
- Title(参考訳): ARPO:経験的リプレイによるGUIエージェントのEnd-to-Endポリシー最適化
- Authors: Fanbin Lu, Zhisheng Zhong, Shu Liu, Chi-Wing Fu, Jiaya Jia,
- Abstract要約: Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
- 参考スコア(独自算出の注目度): 88.74638385288773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) as interactive agents for controlling graphical user interfaces (GUIs) presents a unique challenge to optimize long-horizon action sequences with multimodal feedback from complex environments. While recent works have advanced multi-turn reinforcement learning (RL) for reasoning and tool-using capabilities in LLMs, their application to GUI-based agents remains relatively underexplored due to the difficulty of sparse rewards, delayed feedback, and high rollout costs. In this paper, we investigate end-to-end policy optimization for vision-language-based GUI agents with the aim of improving performance on complex, long-horizon computer tasks. We propose Agentic Replay Policy Optimization (ARPO), an end-to-end RL approach that augments Group Relative Policy Optimization (GRPO) with a replay buffer to reuse the successful experience across training iterations. To further stabilize the training process, we propose a task selection strategy that filters tasks based on baseline agent performance, allowing the agent to focus on learning from informative interactions. Additionally, we compare ARPO with offline preference optimization approaches, highlighting the advantages of policy-based methods in GUI environments. Experiments on the OSWorld benchmark demonstrate that ARPO achieves competitive results, establishing a new performance baseline for LLM-based GUI agents trained via reinforcement learning. Our findings underscore the effectiveness of reinforcement learning for training multi-turn, vision-language GUI agents capable of managing complex real-world UI interactions. Codes and models:https://github.com/dvlab-research/ARPO.git.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)を制御する対話型エージェントとして,大規模言語モデル(LLM)を訓練することは,複雑な環境からのマルチモーダルフィードバックによる長距離アクションシーケンスの最適化にユニークな課題である。
近年のLLMにおける多ターン強化学習(RL)は多ターン強化学習(RL)に応用されているが、GUIベースのエージェントへの応用は、スパース報酬の難しさ、フィードバックの遅れ、ロールアウトコストの高さから、比較的未熟である。
本稿では,複雑な長期コンピュータタスクの性能向上を目的とした,視覚言語に基づくGUIエージェントのエンドツーエンドポリシー最適化について検討する。
本稿では,グループ相対的政策最適化(GRPO)をリプレイバッファで拡張し,トレーニングイテレーションを通じて成功した経験を再利用する,エンドツーエンドのRLアプローチであるAgentic Replay Policy Optimization(ARPO)を提案する。
学習過程をより安定させるために,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案し,エージェントが情報的相互作用から学ぶことに集中できるようにする。
さらに、GUI環境におけるポリシーベースの手法の利点を強調し、ARPOとオフライン優先最適化のアプローチを比較した。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示し、強化学習を通じてトレーニングされたLLMベースのGUIエージェントの新たなパフォーマンスベースラインを確立する。
実世界の複雑なUIインタラクションを管理するマルチターン・ビジョン言語GUIエージェントの学習における強化学習の有効性について検討した。
コードとモデル:https://github.com/dvlab-research/ARPO.git
関連論文リスト
- GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-08-05T10:17:38Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文 参考訳(メタデータ) (2025-06-11T03:43:30Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文 参考訳(メタデータ) (2025-04-29T06:55:15Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - API Agents vs. GUI Agents: Divergence and Convergence [37.13923771130588]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。