論文の概要: WebWorld: A Large-Scale World Model for Web Agent Training
- arxiv url: http://arxiv.org/abs/2602.14721v1
- Date: Mon, 16 Feb 2026 13:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.412566
- Title: WebWorld: A Large-Scale World Model for Web Agent Training
- Title(参考訳): WebWorld: Webエージェントトレーニングのための大規模ワールドモデル
- Authors: Zikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu,
- Abstract要約: 大規模にトレーニングされた最初のオープンウェブシミュレータである textbfWebWorld シリーズを紹介する。
WebWorldは1M以上のオープンWebインタラクションをトレーニングし、推論、マルチフォーマットデータ、30以上のステップのロングホライゾンシミュレーションをサポートする。
WebWorld合成トラジェクトリでトレーニングされたQwen3-14Bは,WebArenaで+9.2%向上し,GPT-4oに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 59.59257499344279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce \textbf{WebWorld} series, the first open-web simulator trained at scale. While existing simulators are restricted to closed environments with thousands of trajectories, WebWorld leverages a scalable data pipeline to train on 1M+ open-web interactions, supporting reasoning, multi-format data, and long-horizon simulations of 30+ steps. For intrinsic evaluation, we introduce WebWorld-Bench with dual metrics spanning nine dimensions, where WebWorld achieves simulation performance comparable to Gemini-3-Pro. For extrinsic evaluation, Qwen3-14B trained on WebWorld-synthesized trajectories improves by +9.2\% on WebArena, reaching performance comparable to GPT-4o. WebWorld enables effective inference-time search, outperforming GPT-5 as a world model. Beyond web simulation, WebWorld exhibits cross-domain generalization to code, GUI, and game environments, providing a replicable recipe for world model construction.
- Abstract(参考訳): Webエージェントは、一般化するために膨大なトラジェクトリを必要とするが、実際のトレーニングは、ネットワークレイテンシ、レート制限、安全性リスクによって制約される。
我々は,大規模にトレーニングされた最初のオープンウェブシミュレータである \textbf{WebWorld} シリーズを紹介する。
既存のシミュレータは数千のトラジェクトリを持つクローズド環境に限定されているが、WebWorldはスケーラブルなデータパイプラインを活用して1M以上のオープンWebインタラクションをトレーニングし、推論、マルチフォーマットデータ、30以上のステップのロングホライゾンシミュレーションをサポートする。
そこで本研究では,WebWorldがGemini-3-Proに匹敵するシミュレーション性能を実現するために,9次元にまたがる2つのメトリクスを持つWebWorld-Benchを紹介する。
外部評価のために、Qwen3-14BはWebWorldの合成軌道で訓練され、WebArenaで+9.2\%向上し、GPT-4oに匹敵する性能に達した。
WebWorldは効果的な推論時間検索を可能にし、世界モデルとしてGPT-5を上回っている。
WebWorldは、Webシミュレーション以外にも、コード、GUI、ゲーム環境へのクロスドメインの一般化を示し、ワールドモデル構築のためのレプリケートなレシピを提供する。
関連論文リスト
- AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines [43.251303612671194]
AutoWebWorldは、制御可能で検証可能なWeb環境を合成するためのフレームワークである。
状態遷移が暗黙的な実際のWebサイトとは異なり、AutoWebWorldは、すべての状態、アクション、遷移ルールを明示的に定義している。
29の多様なWeb環境から11,663以上の認証トラジェクトリを生成し、1トラジェクトリあたり0.04ドルである。
論文 参考訳(メタデータ) (2026-02-15T20:03:19Z) - Web World Models [60.208836336654315]
Web World Model (WWM) は「世界状態と物理」が通常のWebコードで実装される中核となる。
リアルなウェブスタック上にWWMのスイートを構築し、現実の地理や架空の銀河探検家、ウェブスケールの百科事典や物語の世界、シミュレーションやゲームのような環境を基盤とする無限の旅行アトラスを構築します。
この結果から,ウェブスタック自体が世界モデルのスケーラブルな基盤として機能し,制御可能かつオープンな環境を実現することが示唆された。
論文 参考訳(メタデータ) (2025-12-29T18:31:45Z) - GigaWorld-0: World Models as Data Engine to Empower Embodied AI [42.7374586431707]
我々は、ビジョン・ランゲージ・アクション学習のためのデータエンジンとして明示的に設計された統一世界モデルフレームワークであるGigaWorld-0を提案する。
GigaWorld-0はGigaWorld-0-Videoという2つの相乗的コンポーネントを統合している。
GigaWorld-0-3Dは、3D生成モデリング、3Dガウススプラッティング再構成、物理的に微分可能なシステム識別、幾何学的一貫性と物理リアリズムを確保するための実行可能な動作計画を組み合わせる。
論文 参考訳(メタデータ) (2025-11-25T03:00:42Z) - LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training [55.72784274656801]
構造化されたUI状態と遷移を生成するスケーラブルなパラダイムを導入し、大規模にトレーニングトラジェクトリを合成する。
このパラダイムは、多様なUI状態のためのデジタルワールドシミュレータ、コヒーレント探索のためのガイド付きロールアウトプロセス、軌道ラッパーを統合している。
WebArenaとAndroidWorldの実験では、UI-Simulatorは実際のUIでトレーニングされたオープンソースエージェントと競合するか、あるいは超越している。
論文 参考訳(メタデータ) (2025-10-16T17:59:38Z) - Trajectory World Models for Heterogeneous Environments [67.27233466954814]
環境を横断するセンサーやアクチュエータの不均一性は、大規模な事前訓練された世界モデルを構築する上で大きな課題となる。
我々は80の環境から100万以上のトラジェクトリからなる統一データセットUniTrajを紹介した。
また,様々なセンサやアクチュエータ情報を扱える新しいアーキテクチャであるTrajWorldを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:59:08Z) - Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [22.608219492706876]
本稿では,各候補行動の結果をシミュレートし,考慮した世界モデルを用いたWebエージェントのためのモデルベース計画フレームワークを提案する。
実証的な結果は、WebDreamerがリアクティブベースラインよりも大幅にパフォーマンスが向上していることを示している。
我々の訓練された世界モデルDreamer-7Bは、GPT-4oに匹敵する性能を発揮し、複雑なウェブ環境における効率的かつ効率的な計画のための特殊な世界モデルの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。