論文の概要: OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents
- arxiv url: http://arxiv.org/abs/2606.02031v2
- Date: Thu, 04 Jun 2026 09:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.006821
- Title: OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents
- Title(参考訳): OpenWebRL:ビジュアルWebエージェントのためのオンラインマルチターン強化学習
- Authors: Rui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao,
- Abstract要約: 実際のWebサイト上で,オンラインマルチターンRLによるビジュアルWebエージェントのトレーニングを行うオープンフレームワークであるOpenWebRLを紹介した。
OpenWebRLは、スケーラブルなライブブラウザインフラストラクチャを含む、完全なトレーニングパイプラインをカバーしている。
私たちはOpenWebRL-4Bをトレーニングします。
- 参考スコア(独自算出の注目度): 61.42551993396796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.
- Abstract(参考訳): 有能なビジュアルWebエージェントを構築するには、長い水平推論、正確な接地、動的現実世界のウェブサイトとの堅牢な相互作用が必要である。
急速な進歩にもかかわらず、最強のシステムは依然としてプロプライエタリであり、オープンエージェントは依然として、大量のキュレートされたWebトラジェクトリのコレクションに対する教師付きポストトレーニングに大きく依存している。
高品質なデモは収集に費用がかかり、静的なデータセットは、多様で絶え間なく変化するオープンなWebを限定的にカバーします。
オンラインRLはテキストベースのエージェントを約束しているが、視覚的なWebエージェントをライブWebサイトで直接訓練する可能性はほとんど調査されていない。
本稿では,仮想Webエージェントを実ウェブサイト上でオンラインマルチターンRLでトレーニングするためのオープンフレームワークであるOpenWebRLを紹介する。
OpenWebRLは、スケーラブルなライブブラウザインフラストラクチャ、教師付き初期化、マルチモーダルコンテキスト管理、軌道レベルの成功判定、効率的なマルチターンポリシー最適化を含む、完全なトレーニングパイプラインをカバーしている。
このフレームワークを使ってOpenWebRL-4Bをトレーニングします。
0.4Kの初期化軌道と2.2KのオープンエンドRLトレーニングタスクしか持たず、OpenWebRL-4BはオンラインMind2Webで67.0%、DeepShopで64.0%成功し、類似または大規模のオープンエージェントよりも優れ、OpenAI CUAやGemini CUAなどのプロプライエタリシステムと競合する。
強力なベンチマーク性能の他に、オンラインRLをビジュアルWebエージェントに効果的にするための重要な設計選択を体系的に研究し、RLがエージェント推論をどのように改善するかを分析する。
全体として、我々の仕事は、より有能で再現可能でコスト効率の良いオープンウェブエージェントを構築するための実践的な道筋を提供する。
将来の研究をサポートするために、トレーニングデータ、モデル、コードをリリースします。
関連論文リスト
- OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - DynaWeb: Model-Based Reinforcement Learning of Web Agents [27.869298392260358]
DynaWebは、自然主義的なWebページ表現を予測するために訓練されたWebワールドモデルと対話することで、Webエージェントを訓練するフレームワークである。
本研究は,オンラインエージェントRLをスケールアップするスケーラブルで効率的な方法として,Webエージェントを想像力で訓練することの可能性を実証するものである。
論文 参考訳(メタデータ) (2026-01-29T18:59:07Z) - OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents [68.79728889531806]
最先端のパフォーマンスは通常、オンライン強化学習(RL)に依存します。
オフライントレーニングを効果的に行うために設計された、完全なオープンソーススイートを紹介します。
当社の中核的なコントリビューションはDeepForgeです。DeepForgeは、大量の前処理なしで大規模な研究クエリを生成する、使えるタスク合成フレームワークです。
論文 参考訳(メタデータ) (2026-01-26T13:13:59Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [36.47273215142354]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。
WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。
In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文 参考訳(メタデータ) (2025-05-22T09:07:43Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。