論文の概要: Safe and Scalable Web Agent Learning via Recreated Websites
- arxiv url: http://arxiv.org/abs/2603.10505v1
- Date: Wed, 11 Mar 2026 07:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.838743
- Title: Safe and Scalable Web Agent Learning via Recreated Websites
- Title(参考訳): Recreated Webサイトによる安全でスケーラブルなWebエージェント学習
- Authors: Hyungjoo Chae, Jungsoo Park, Alan Ritter,
- Abstract要約: Webエージェントのトレーニングは、彼らがそこから学ぶ環境によって根本的に制限される。
本稿では,言語モデルを環境創造者として扱うフレームワークを提案し,実世界のWebサイトを検証可能な合成環境に自動的にクローンする。
- 参考スコア(独自算出の注目度): 27.277983097111335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.
- Abstract(参考訳): 現実のWebサイトは探索が危険で、リセットが困難で、検証可能なフィードバックはめったにない。
言語モデルを環境作成者として扱うフレームワークであるVeriEnvを提案する。
Python SDKを通じて制御された内部アクセスを公開することで、VeriEnvはエージェントが決定論的、プログラム的に検証可能な報酬でタスクを自己生成し、ヒューリスティックまたはLLMベースの裁判官への依存をなくすことができる。
この設計は、環境拡張を通じてスケーラブルな自己進化を可能にしながら、安全でない現実世界の相互作用からエージェントの学習を分離する。
Webエージェントベンチマークの実験を通じて、VeriEnvでトレーニングされたエージェントが、目に見えないウェブサイトに一般化し、自己進化的なトレーニングを通じてサイト固有の熟達を実現し、トレーニング環境のスケールアップの恩恵を受けることを示す。
コードとリソースは、受け入れ次第https://github.com/kyle8581/VeriEnvでリリースされる。
関連論文リスト
- WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents [20.85611634311147]
本稿では,GUIエージェントのための完全自動クローズドループ強化学習パイプラインであるWebFactoryを紹介する。
我々のエージェントは例外的なデータ効率と一般化を実証する。
この研究は、受動的インターネット知識をアクティブで接地されたインテリジェンスに変換するためのスケーラブルで費用効率のよいパラダイムを提示します。
論文 参考訳(メタデータ) (2026-03-05T10:51:34Z) - Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。