論文の概要: WEBSERV: A Browser-Server Environment for Efficient Training of Reinforcement Learning-based Web Agents at Scale
- arxiv url: http://arxiv.org/abs/2510.16252v1
- Date: Fri, 17 Oct 2025 22:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.917396
- Title: WEBSERV: A Browser-Server Environment for Efficient Training of Reinforcement Learning-based Web Agents at Scale
- Title(参考訳): WEBSERV: 大規模強化学習型Webエージェントを効果的に学習するためのブラウザ環境
- Authors: Yuxuan Lu, Jing Huang, Hui Liu, Jiri Gesi, Yan Han, Shihan Fu, Tianqi Zheng, Dakuo Wang,
- Abstract要約: 強化学習(RL) Webエージェントの訓練と評価が注目されている。
既存の環境は、過度でノイズの多いコンテキストでポリシーモデルを圧倒します。
我々は、コンテキストとアクションの複雑さのバランスをとるサイトに依存しないブラウザ環境であるWEBSERVを提案する。
- 参考スコア(独自算出の注目度): 24.98872156421692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training and evaluation of Reinforcement Learning (RL) web agents have gained increasing attention, yet a scalable and efficient environment that couples realistic and robust browser-side interaction with controllable server-side state at scale is still missing. Existing environments tend to have one or more of the following issues: they overwhelm policy models with excessive and noisy context; they perform actions non-deterministically without waiting for the UI or network to stabilize; or they cannot scale isolated client-server containers effectively for parallel RL rollouts. We propose WEBSERV, an environment that includes 1) a compact, site-agnostic browser environment that balances context and action complexity, and 2) a scalable RL environment via efficient launching and resetting web-servers to enable scalable RL training and evaluation. We evaluate WEBSERV on the shopping CMS and Gitlab tasks in WebArena, achieving state-of-the-art single-prompt success rates while cutting launch latency by ~5x and storage need by ~240x, with a comparable memory footprint, enabling 200+ concurrent containers on a single host.
- Abstract(参考訳): Reinforcement Learning (RL) Webエージェントのトレーニングと評価が注目されているが、現実的で堅牢なブラウザ側のインタラクションを、大規模に制御可能なサーバ側の状態と組み合わせる、スケーラブルで効率的な環境はいまだに欠落している。
既存の環境には、過度でノイズの多いコンテキストでポリシーモデルを圧倒する、UIやネットワークが安定化するのを待たずに非決定的にアクションを実行する、並列RLロールアウトのために分離されたクライアントサーバコンテナを効果的にスケールできない、といった問題があります。
我々はWEBSERVという環境を提案する。
1)コンテキストとアクションの複雑さのバランスをとるコンパクトでサイトに依存しないブラウザ環境。
2) スケーラブルなRLトレーニングと評価を実現するため,Webサーバの効率的な起動とリセットによるスケーラブルなRL環境を実現する。
WebArenaのショッピングCMSとGitlabタスクでWEBSERVを評価し、起動遅延を約5倍、ストレージ要求を約240倍に削減し、単一のホスト上で200以上の同時コンテナを可能にする。
関連論文リスト
- IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents [40.033250603445246]
自律デスクトップインテリジェンスのためのフレームワークComputerRLを紹介する。
ComputerRLは、プログラム的なAPI呼び出しと直接GUIインタラクションを統合するAPI-GUIパラダイムを備えている。
本稿では,強化学習と教師付き微調整を交互に行う訓練戦略であるEntropulseを提案する。
論文 参考訳(メタデータ) (2025-08-19T17:59:45Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - RecoMind: A Reinforcement Learning Framework for Optimizing In-Session User Satisfaction in Recommendation Systems [2.4762227354811293]
RecoMindは、Webスケールでのセッションベースの目標を効果的に最適化するために設計されたシミュレータベースの強化学習フレームワークである。
RecoMindは、従来の教師付き学習推奨手法よりも、セッション内ユーザの満足度において大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-07-31T23:01:14Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文 参考訳(メタデータ) (2024-09-23T18:06:32Z) - NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。