論文の概要: OpAgent: Operator Agent for Web Navigation
- arxiv url: http://arxiv.org/abs/2602.13559v1
- Date: Sat, 14 Feb 2026 02:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.146394
- Title: OpAgent: Operator Agent for Web Navigation
- Title(参考訳): OpAgent: Webナビゲーションのためのオペレータエージェント
- Authors: Yuyu Guo, Wenjie Yang, Siyuan Yang, Ziyang Liu, Cheng Chen, Yuan Wei, Yun Hu, Yang Huang, Guoliang Hao, Dongsheng Yuan, Jianming Wang, Xin Chen, Hang Yu, Lei Lei, Peng Di,
- Abstract要約: 我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
- 参考スコア(独自算出の注目度): 23.928869500029432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To fulfill user instructions, autonomous web agents must contend with the inherent complexity and volatile nature of real-world websites. Conventional paradigms predominantly rely on Supervised Fine-Tuning (SFT) or Offline Reinforcement Learning (RL) using static datasets. However, these methods suffer from severe distributional shifts, as offline trajectories fail to capture the stochastic state transitions and real-time feedback of unconstrained wide web environments. In this paper, we propose a robust Online Reinforcement Learning WebAgent, designed to optimize its policy through direct, iterative interactions with unconstrained wide websites. Our approach comprises three core innovations: 1) Hierarchical Multi-Task Fine-tuning: We curate a comprehensive mixture of datasets categorized by functional primitives -- Planning, Acting, and Grounding -- establishing a Vision-Language Model (VLM) with strong instruction-following capabilities for Web GUI tasks. 2) Online Agentic RL in the Wild: We develop an online interaction environment and fine-tune the VLM using a specialized RL pipeline. We introduce a Hybrid Reward Mechanism that combines a ground-truth-agnostic WebJudge for holistic outcome assessment with a Rule-based Decision Tree (RDT) for progress reward. This system effectively mitigates the credit assignment challenge in long-horizon navigation. Notably, our RL-enhanced model achieves a 38.1\% success rate (pass@5) on WebArena, outperforming all existing monolithic baselines. 3) Operator Agent: We introduce a modular agentic framework, namely \textbf{OpAgent}, orchestrating a Planner, Grounder, Reflector, and Summarizer. This synergy enables robust error recovery and self-correction, elevating the agent's performance to a new State-of-the-Art (SOTA) success rate of \textbf{71.6\%}.
- Abstract(参考訳): ユーザの指示を満たすために、自律的なWebエージェントは、現実世界のWebサイトの本質的な複雑さと揮発性の性質とを争わなければならない。
従来のパラダイムは、静的データセットを使用したスーパービジョンファインチューニング(SFT)やオフライン強化学習(RL)に大きく依存している。
しかし、これらの手法は、オフライン軌道が確率的状態遷移を捉えず、制約のない広いWeb環境のリアルタイムフィードバックが得られないため、重大な分散シフトに悩まされる。
本稿では,制約のないWebサイトとの直接的かつ反復的なインタラクションを通じて,そのポリシーを最適化する,堅牢なオンライン強化学習WebAgentを提案する。
私たちのアプローチは3つのコアイノベーションで構成されています。
1) 階層型マルチタスクファインチューニング: 機能プリミティブ – 計画,実行,グラウンド化 – で分類されたデータセットの包括的な混合をキュレートし,Web GUIタスクに強力な命令追従機能を備えたビジョンランゲージモデル(VLM)を確立する。
2) 野生におけるオンラインエージェントRL: オンラインインタラクション環境を開発し, 特殊なRLパイプラインを用いてVLMを微調整する。
本稿では,総合的な結果評価を行うWebJudgeと,進捗報奨のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
本システムは,長距離ナビゲーションにおけるクレジット割り当て課題を効果的に軽減する。
特に、我々のRL強化モデルは、WebArena上で38.1\%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
3) Operator Agent: Planner, Grounder, Reflector, Summarizerを編成するモジュール型エージェントフレームワーク,すなわちtextbf{OpAgent}を導入する。
このシナジーにより、堅牢なエラー回復と自己補正が可能となり、エージェントのパフォーマンスは、新しいState-of-the-Art (SOTA) の成功率である \textbf{71.6\%} に上昇する。
関連論文リスト
- From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - DynaWeb: Model-Based Reinforcement Learning of Web Agents [27.869298392260358]
DynaWebは、自然主義的なWebページ表現を予測するために訓練されたWebワールドモデルと対話することで、Webエージェントを訓練するフレームワークである。
本研究は,オンラインエージェントRLをスケールアップするスケーラブルで効率的な方法として,Webエージェントを想像力で訓練することの可能性を実証するものである。
論文 参考訳(メタデータ) (2026-01-29T18:59:07Z) - Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文 参考訳(メタデータ) (2025-10-29T12:08:07Z) - TGPO: Tree-Guided Preference Optimization for Robust Web Agent Reinforcement Learning [4.456860697635325]
強化学習による Web エージェントのトレーニングには,クレジット割り当ての誤り,アノテーションコストの禁止,パースペリティの報奨など,重要な課題が伴う。
我々のフレームワークにはプロセス・リワード・モデルが組み込まれており、サブゴールの進行、冗長性の検出、行動検証を通じて、細かな報酬を自動的に生成する。
Online-Mind2Webと我々の自己構築したC-WebShopデータセットの実験は、TGPOが既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-09-17T16:58:44Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。