論文の概要: InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training
- arxiv url: http://arxiv.org/abs/2601.04126v2
- Date: Thu, 08 Jan 2026 06:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 15:04:17.538243
- Title: InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training
- Title(参考訳): InfiniteWeb:GUIエージェントトレーニングのためのスケーラブルなWeb環境合成
- Authors: Ziyun Zhang, Zezhou Wang, Xiaoyi Zhang, Zongyu Guo, Jiahao Li, Bin Li, Yan Lu,
- Abstract要約: InfiniteWebはGUIエージェントのトレーニングのために,機能的Web環境を大規模に自動生成するシステムである。
統一仕様、タスク中心のテスト駆動開発、Webサイトシードとリファレンスデザインイメージの組み合わせによる課題に対処する。
実験によると、InfiniteWebはリアルなWebサイト構築において、商用のコーディングエージェントを上回っている。
- 参考スコア(独自算出の注目度): 24.578304125533734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agents that interact with graphical interfaces on behalf of users represent a promising direction for practical AI assistants. However, training such agents is hindered by the scarcity of suitable environments. We present InfiniteWeb, a system that automatically generates functional web environments at scale for GUI agent training. While LLMs perform well on generating a single webpage, building a realistic and functional website with many interconnected pages faces challenges. We address these challenges through unified specification, task-centric test-driven development, and a combination of website seed with reference design image to ensure diversity. Our system also generates verifiable task evaluators enabling dense reward signals for reinforcement learning. Experiments show that InfiniteWeb surpasses commercial coding agents at realistic website construction, and GUI agents trained on our generated environments achieve significant performance improvements on OSWorld and Online-Mind2Web, demonstrating the effectiveness of proposed system.
- Abstract(参考訳): ユーザに代わってグラフィカルインターフェースと対話するGUIエージェントは、実用的なAIアシスタントにとって有望な方向を示している。
しかし、適切な環境の不足により、そのようなエージェントの訓練が妨げられる。
InfiniteWebはGUIエージェントのトレーニングのために,機能的Web環境を大規模に自動生成するシステムである。
LLMは単一のWebページを生成する上でうまく機能する一方で、多くの相互接続されたページを持つ現実的で機能的なWebサイトを構築することは、課題に直面します。
統一仕様、タスク中心のテスト駆動開発、Webサイトシードとリファレンスデザインイメージを組み合わせて多様性を確保することで、これらの課題に対処する。
また、強化学習のための高密度報酬信号を可能にする検証可能なタスク評価器も生成する。
InfiniteWebはリアルなWebサイト構築において商用のコーディングエージェントよりも優れており、生成環境上で訓練されたGUIエージェントはOSWorldとOnline-Mind2Webで大幅な性能向上を実現し、提案システムの有効性を実証している。
関連論文リスト
- WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents [20.85611634311147]
本稿では,GUIエージェントのための完全自動クローズドループ強化学習パイプラインであるWebFactoryを紹介する。
我々のエージェントは例外的なデータ効率と一般化を実証する。
この研究は、受動的インターネット知識をアクティブで接地されたインテリジェンスに変換するためのスケーラブルで費用効率のよいパラダイムを提示します。
論文 参考訳(メタデータ) (2026-03-05T10:51:34Z) - Mano Technical Report [29.551514304095296]
Manoは、大規模なWebおよびコンピュータシステムデータに基づいて事前訓練されたマルチモーダル基盤モデル上に構築された堅牢なGUIエージェントである。
Mano氏は、Mind2WebやOSWorldなど、複数のGUIベンチマークで最先端のパフォーマンスをデモしている。
論文 参考訳(メタデータ) (2025-09-22T03:13:58Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis [34.998277998052444]
本稿では,軌道合成と学習のための新しいフレームワークであるWebSynthesisを提案する。
本稿では,WebSynthesis を用いて訓練したエージェントが,大規模実世界のデータに対してトレーニングしたモデルに匹敵する,あるいはそれ以上の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-07-06T12:31:10Z) - Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.32705135051486]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。
多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。
その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (2025-06-18T17:58:17Z) - Build the web for agents, not agents for the web [27.969222950526703]
本稿では,エージェントがWebサイトをナビゲートするためのインターフェースであるAWI(Agentic Web Interface)の概念を紹介する。
AWI設計の原則を6つ確立し,安全性,効率,標準化を重視した。
このリフレーミングは、既存のインターフェイスの基本的な制限を克服し、より効率的で信頼性があり透明なWebエージェント設計への道を開くことを目的としています。
論文 参考訳(メタデータ) (2025-06-12T17:53:58Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Adversarial Environment Generation for Learning to Navigate the Web [107.99759923626242]
Webナビゲーションエージェントのトレーニングのボトルネックの1つは、トレーニング環境の学習可能なカリキュラムを提供することです。
AEG(Adversarial Environment Generation)を使用して、強化学習(RL)エージェントを訓練する困難なWeb環境を生成することを提案する。
提案するフレキシブルb-PAIRED技術を用いて訓練したナビゲータエージェントは,競争力のある自動カリキュラム生成ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-02T19:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。