論文の概要: Adaptive Milestone Reward for GUI Agents
- arxiv url: http://arxiv.org/abs/2602.11524v1
- Date: Thu, 12 Feb 2026 03:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.621897
- Title: Adaptive Milestone Reward for GUI Agents
- Title(参考訳): GUIエージェントのための適応型マイルストーンリワード
- Authors: Congmin Zheng, Xiaoyun Mo, Xinbei Ma, Qiqiang Lin, Yin Zhao, Jiachen Zhu, Xingyu Lou, Jun Wang, Zhaoxiang Wang, Weiwen Liu, Zhuosheng Zhang, Yong Yu, Weinan Zhang,
- Abstract要約: 本稿では,Adaptive Milestone Reward (ADMIRE) 機構を提案する。
ADMIREは、軌道をマイルストーンに固定することで、検証可能な適応的な報酬システムを構築する。
実験によると、ADMIREは成功率において10%以上の絶対的な改善をもたらす。
- 参考スコア(独自算出の注目度): 38.548364518806046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has emerged as a mainstream paradigm for training Mobile GUI Agents, yet it struggles with the temporal credit assignment problem inherent in long-horizon tasks. A primary challenge lies in the trade-off between reward fidelity and density: outcome reward offers high fidelity but suffers from signal sparsity, while process reward provides dense supervision but remains prone to bias and reward hacking. To resolve this conflict, we propose the Adaptive Milestone Reward (ADMIRE) mechanism. ADMIRE constructs a verifiable, adaptive reward system by anchoring trajectory to milestones, which are dynamically distilled from successful explorations. Crucially, ADMIRE integrates an asymmetric credit assignment strategy that denoises successful trajectories and scaffolds failed trajectories. Extensive experiments demonstrate that ADMIRE consistently yields over 10% absolute improvement in success rate across different base models on AndroidWorld. Moreover, the method exhibits robust generalizability, achieving strong performance across diverse RL algorithms and heterogeneous environments such as web navigation and embodied tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、モバイルGUIエージェントを訓練するための主流パラダイムとして登場したが、長期的タスクに固有の時間的信用割当問題に苦慮している。
結果報酬は高い忠実度を提供するが、信号の疎結合に悩まされる一方、プロセス報酬は密集した監督を提供するが、バイアスや報酬のハッキングの傾向は残る。
この対立を解決するために,Adaptive Milestone Reward (ADMIRE) 機構を提案する。
ADMIREは、軌道をマイルストーンに固定することで検証可能な適応的な報酬システムを構築する。
重要なことにADMIREは、成功した軌道と足場が失敗した軌道を識別する非対称な信用割当戦略を統合している。
大規模な実験により、ADMIREは一貫して、AndroidWorld上のさまざまなベースモデルで10%以上の絶対的な成功率の向上を達成している。
さらに,本手法は堅牢な一般化性を示し,多様なRLアルゴリズムとWebナビゲーションや具体化タスクといった異種環境にまたがる高い性能を実現する。
関連論文リスト
- Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System [29.738672424331398]
本稿では,シェープリーを基盤とした階層型強化政策(SHARP)について紹介する。
SHARPは、主にグローバル放送精度報酬(英語版)とツールプロセス報酬(英語版)を通じて、軌道群全体におけるエージェント固有の利点を正規化することでトレーニングを安定化し、実行効率を向上させる。
実験の結果、SHARPは最近の最先端のベースラインを著しく上回り、シングルエージェントとマルチエージェントのアプローチに対して平均23.66%と14.05%の改善を達成した。
論文 参考訳(メタデータ) (2026-02-09T07:17:28Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - Differentiable Evolutionary Reinforcement Learning [41.96953381133274]
本稿では,最適な報酬信号の自律的発見を可能にする二段階フレームワークであるDerL(Deriable Evolutionary Reinforcement Learning)を提案する。
DERLはメタ最適化において微分可能であり、内部ループ検証性能を強化学習を通じてメタrを更新する信号として扱う。
実験結果から,ALFWorldとScienceWorldにおけるDerLの最先端性能は,報酬に依存した手法よりも優れていた。
論文 参考訳(メタデータ) (2025-12-15T14:50:08Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。
挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-30T17:00:48Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。