論文の概要: WebForge: Breaking the Realism-Reproducibility-Scalability Trilemma in Browser Agent Benchmark
- arxiv url: http://arxiv.org/abs/2604.10988v1
- Date: Mon, 13 Apr 2026 04:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.32606
- Title: WebForge: Breaking the Realism-Reproducibility-Scalability Trilemma in Browser Agent Benchmark
- Title(参考訳): WebForge: ブラウザエージェントベンチマークにおけるリアリズム-再現性-スケーラビリティのトリレンマを破る
- Authors: Peng Yuan, Yuyang Yin, Yuxuan Cai, Zheng Wei,
- Abstract要約: 既存のブラウザエージェントベンチマークは、基本的なトリレンマに直面している: リアルタイムWebサイトベンチマークは、コンテンツドリフトによる欠如、コントロールされた環境は、実際のWebノイズを省いてリアリズムを犠牲にする。
私たちは、このトリレンマを解決する最初の完全に自動化されたフレームワークであるWebForgeを紹介します。
7次元の難易度制御フレームワークは、ナビゲーション深度、視覚的複雑さ、推論困難度などに沿ってタスク設計を構成し、単一の集計スコアを超える体系的な能力プロファイルを可能にする。
- 参考スコア(独自算出の注目度): 10.793973999774026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing browser agent benchmarks face a fundamental trilemma: real-website benchmarks lack reproducibility due to content drift, controlled environments sacrifice realism by omitting real-web noise, and both require costly manual curation that limits scalability. We present WebForge, the first fully automated framework that resolves this trilemma through a four-agent pipeline -- Plan, Generate, Refine, and Validate -- that produces interactive, self-contained web environments end-to-end without human annotation. A seven-dimensional difficulty control framework structures task design along navigation depth, visual complexity, reasoning difficulty, and more, enabling systematic capability profiling beyond single aggregate scores. Using WebForge, we construct WebForge-Bench, a benchmark of 934 tasks spanning 7 domains and 3 difficulty levels. Multi-model experiments show that difficulty stratification effectively differentiates model capabilities, while cross-domain analysis exposes capability biases invisible to aggregate metrics. Together, these results confirm that multi-dimensional evaluation reveals distinct capability profiles that a single aggregate score cannot capture. Code and benchmark are publicly available at https://github.com/yuandaxia2001/WebForge.
- Abstract(参考訳): 既存のブラウザエージェントベンチマークは、基本的なトリレンマに直面している。リアルタイムWebサイトベンチマークは、コンテンツドリフトによる再現性を欠いている。
これは、人間のアノテーションなしで対話的で自己完結したWeb環境をエンドツーエンドに生成する4つのエージェントパイプライン、Plan、Generate、Refine、Validateを通じて、このトリレンマを解決する最初の完全に自動化されたフレームワークである。
7次元の難易度制御フレームワークは、ナビゲーション深度、視覚的複雑さ、推論困難度などに沿ってタスク設計を構成し、単一の集計スコアを超える体系的な能力プロファイルを可能にする。
WebForgeを使って、WebForge-Benchという7つのドメインと3つの難易度にまたがる934のタスクのベンチマークを構築します。
マルチモデル実験により、階層化の難しさはモデルの能力を効果的に区別することを示し、一方、クロスドメイン分析はメトリクスを集約するために見えない能力バイアスを明らかにする。
これらの結果から,複数次元評価の結果から,単一の集計スコアが取得できない特徴プロファイルが明らかとなった。
コードとベンチマークはhttps://github.com/yuandaxia2001/WebForge.comで公開されている。
関連論文リスト
- WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。
また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-05T08:47:39Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety [9.588706798051955]
マルチモーダルな大規模言語モデル(MLLM)は、複雑なWeb関連アプリケーションを構築するためのAIコラボレータとしてますます位置づけられている。
我々は、WebRSSBenchと呼ばれる総合的なWeb理解ベンチマークを導入し、8つのタスクでReasoning, Robustness, Safetyを共同で評価する。
このベンチマークは729のウェブサイトから構築され、3799の質問応答ペアが含まれており、ページ構造、テキスト、ウィジェット、安全クリティカルな相互作用に関する多段階の推論を探索している。
論文 参考訳(メタデータ) (2025-09-26T02:38:14Z) - Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents [0.48156730450374763]
この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。
本稿では,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T19:34:49Z) - Cybernaut: Towards Reliable Web Automation [1.885569013569835]
Cybernautは、堅牢なエンタープライズ利用のために設計されたWebオートメーションエージェントにおいて、高い実行一貫性を保証する新しいフレームワークである。
1) ユーザデモを線形ブラウジングタスクの信頼性の高い自動化命令に変換するSOPジェネレータ,(2) 複雑なWebインターフェースの課題に合わせた高精度なHTML DOM要素認識システム,(3) 実行の整合性を評価するための定量的メトリクス。
論文 参考訳(メタデータ) (2025-08-21T18:39:35Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。