論文の概要: WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions
- arxiv url: http://arxiv.org/abs/2510.09872v1
- Date: Fri, 10 Oct 2025 21:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.659443
- Title: WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions
- Title(参考訳): WARC-Bench: GUIサブタスク実行のためのWebアーカイブベースのベンチマーク
- Authors: Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi,
- Abstract要約: 複雑な現実世界のWebサイトをナビゲートするためにWebエージェントを訓練するには、$itsubtasks$をマスターする必要がある。
WARC-Benchは、サブタスク上でマルチモーダルAIエージェントを評価するように設計された438のタスクを特徴とする、新しいWebナビゲーションベンチマークである。
我々は、WARC-Benchが64.8%という最も高い成功率を持つコンピュータ使用モデルの先導に挑戦していることを示す。
- 参考スコア(独自算出の注目度): 14.49822563708463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training web agents to navigate complex, real-world websites requires them to master $\textit{subtasks}$ - short-horizon interactions on multiple UI components (e.g., choosing the correct date in a date picker, or scrolling in a container to extract information). We introduce WARC-Bench (Web Archive Benchmark), a novel web navigation benchmark featuring 438 tasks designed to evaluate multimodal AI agents on subtasks. WARC-Bench enables sandboxed interactions with dynamic and realistic webpages using Web ARChive files. We show that WARC-Bench is challenging for leading computer-use models, with the highest observed success rate being 64.8%. To improve open source models on subtask, we explore two common training techniques: supervised fine-tuning (SFT) and reinforcement learning with verifiable rewards (RLVR). Experiments show that SFT models obtain a 48.8% success rate on the benchmark. Training with RLVR over SFT checkpoints, even in data-scarce settings, improves the score to 52.8% on WARC-Bench, outperforming many frontier models. Our analysis concludes that mastering these subtasks is essential for robust web planning and navigation, and is a capability not extensively evaluated by existing benchmarks.
- Abstract(参考訳): 複雑な現実世界のWebサイトをナビゲートするために、Webエージェントを訓練するには、複数のUIコンポーネント(例えば、日付ピッカーで正しい日付を選択したり、情報を抽出するためにコンテナでスクロールするなど)で、$\textit{subtasks}$-短水平インタラクションをマスターする必要がある。
WARC-Bench(Web Archive Benchmark)は,サブタスク上でマルチモーダルAIエージェントを評価するために設計された438のタスクを特徴とする,新しいWebナビゲーションベンチマークである。
WARC-Benchは、Web ARChiveファイルを使用して、動的で現実的なWebページとのサンドボックスインタラクションを可能にする。
我々は、WARC-Benchが64.8%という最も高い成功率を持つコンピュータ使用モデルの先導に挑戦していることを示す。
サブタスクのオープンソースモデルを改善するために,教師付き微調整(SFT)と,検証可能な報酬(RLVR)を用いた強化学習という,2つの一般的なトレーニング手法を検討する。
実験の結果、SFTモデルはベンチマークで48.8%の成功率を得ることがわかった。
SFTチェックポイント上でのRLVRトレーニングは、データスカース設定でも、WARC-Benchのスコアを52.8%改善し、多くのフロンティアモデルを上回っている。
分析の結果、これらのサブタスクをマスターすることは、堅牢なWeb計画とナビゲーションに不可欠であり、既存のベンチマークでは広く評価されない能力であることがわかった。
関連論文リスト
- WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents [57.203515352080295]
本稿では,モデルに基づく探索と反復的,長短のクエリ進化を用いた体系的データ生成手法であるWebExplorerを紹介する。
我々のモデルは、128Kのコンテキスト長と最大100のツール呼び出しスイッチをサポートし、長期の問題解決を可能にします。
8Bサイズのモデルとして、WebExplorer-8Bは、RLトレーニング後の平均16ターンを効果的に探索することができる。
論文 参考訳(メタデータ) (2025-09-08T10:07:03Z) - VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search [42.560419395815146]
視覚言語モデルは多くの知覚に焦点を当てたタスクにおいて大きな進歩を遂げた。
しかし、高品質で多様なトレーニングデータがないため、推論に焦点を絞ったタスクの進歩は依然として限られている。
複数の分野にまたがる多種多様な高品質なデータセットを作成するために、VisualWebInstructを提案する。
論文 参考訳(メタデータ) (2025-03-13T17:32:48Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。