論文の概要: WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks
- arxiv url: http://arxiv.org/abs/2601.02439v1
- Date: Mon, 05 Jan 2026 09:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.668791
- Title: WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks
- Title(参考訳): WebGym: 現実的なタスクを持つビジュアルWebエージェントのためのトレーニング環境のスケーリング
- Authors: Hao Bai, Alexey Taymanov, Tong Zhang, Aviral Kumar, Spencer Whitehead,
- Abstract要約: WebGymは、現実的なビジュアルWebエージェントをトレーニングするための、これまでで最大のオープンソース環境である。
WebGymには30万近いタスクがあり、さまざまな現実世界のウェブサイトでルーブリックベースの評価が行われている。
- 参考スコア(独自算出の注目度): 35.99528846296261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.
- Abstract(参考訳): 我々は,現実的なビジュアルWebエージェントをトレーニングするための,これまでで最大規模のオープンソース環境であるWebGymを紹介する。
実際のウェブサイトは非定常的で多様であり、堅牢な政策学習には人工的または小規模のタスクセットが不十分である。
WebGymには30万近いタスクが含まれており、さまざまな現実世界のWebサイトや難易度が評価されている。
エージェントは簡単な強化学習(RL)レシピで訓練し、エージェント自身のインタラクショントレース(ロールアウト)をトレーニングし、タスク報酬をフィードバックとして学習をガイドする。
RLのスケーリングを実現するために,Webエージェント用に設計された高スループット非同期ロールアウトシステムを開発することにより,WebGymにおけるトラジェクトリのサンプリングを高速化する。
本システムでは, 初歩的な実装に比べて, 4~5倍のロールアウト高速化を実現している。
第2に,タスクセットの幅,深さ,サイズを拡大することで,継続的なパフォーマンス向上を実現しています。
強力なベースビジョン言語モデルであるQwen-3-VL-8B-Instructは、WebGym上で26.2%から42.9%のアウト・オブ・ディストリビューション・テストで成功率を向上させ、それぞれ27.1%と29.8%を達成するGPT-4oやGPT-5-Thinkingといったプロプライエタリなモデルに基づくエージェントよりも大幅に優れていた。
私たちのテストセットは、視覚的Webエージェントのトレーニングに関する他の多くの作業とは異なり、トレーニング中に見られなかったウェブサイト上のタスクのみで構成されているため、この改善は大きなものになります。
関連論文リスト
- It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [36.47273215142354]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。
WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。
In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文 参考訳(メタデータ) (2025-05-22T09:07:43Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。