論文の概要: WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks
- arxiv url: http://arxiv.org/abs/2506.01952v1
- Date: Mon, 02 Jun 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.776413
- Title: WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks
- Title(参考訳): WebChoreArena: リアルなTedious Webタスク上でのWebブラウザエージェントの評価
- Authors: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki,
- Abstract要約: WebChoreArenaは、532の精査されたタスクからなる、完全に再現可能な新しいベンチマークである。
WebChoreArenaは、完全に再現可能で広く採用されている4つのWebArenaシミュレーション環境の上に構築されている。
WebChoreArena で LLM が進化するにつれて, 性能が大幅に向上することが実証された。
- 参考スコア(独自算出の注目度): 31.201406205897143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Powered by a large language model (LLM), a web browsing agent operates web browsers in a human-like manner and offers a highly transparent path toward automating a wide range of everyday tasks. As web agents become increasingly capable and demonstrate proficiency in general browsing tasks, a critical question emerges: Can they go beyond general browsing to robustly handle tasks that are tedious and complex, or chores that humans often avoid doing themselves? In this paper, we introduce WebChoreArena, a new fully reproducible benchmark comprising 532 carefully curated tasks designed to extend the scope of WebArena beyond general browsing to more labor-intensive and tedious tasks. WebChoreArena systematically integrates three key challenges: (i) Massive Memory tasks requiring accurate retrieval of large amounts of information in the observations, (ii) Calculation tasks demanding precise mathematical reasoning, and (iii) Long-Term Memory tasks necessitating long-term memory across multiple webpages. Built on top of the fully reproducible and widely adopted four WebArena simulation environments, WebChoreArena ensures strict reproducibility and enables fair, direct comparisons with the established WebArena benchmark, offering key insights into agent progress. Our experimental results demonstrate that as LLMs evolve, represented by GPT-4o, Claude 3.7 Sonnet, and Gemini 2.5 Pro, significant improvements in performance are observed on WebChoreArena. These findings suggest that WebChoreArena is well-suited to measure the advancement of state-of-the-art LLMs with greater clarity. Nevertheless, the results also indicate that even with Gemini 2.5 Pro, there remains substantial room for improvement compared to WebArena, highlighting the increased challenges posed by WebChoreArena.
- Abstract(参考訳): 大規模言語モデル(LLM)により、Webブラウジングエージェントは、ウェブブラウザを人間のように操作し、広範囲の日常的なタスクを自動化するための非常に透過的な経路を提供する。
一般的なブラウジングタスクでは、Webエージェントがますます有能になり、習熟度が向上するにつれて、重要な疑問が浮かび上がってくる。
本稿では,WebChoreArenaを提案する。WebChoreArenaは,WebArenaの範囲を一般的なブラウジングを超えて,より労働集約的で退屈なタスクにまで拡張するための,532の精巧なキュレートされたタスクからなる,新しい完全再現可能なベンチマークである。
WebChoreArenaは,3つの重要な課題を体系的に統合する。
一 観測における大量の情報の正確な検索を必要とする大量記憶業務
二 正確な数学的推論を求める計算タスク、及び
(iii)複数ページにわたる長期メモリを必要とする長期メモリタスク。
完全に再現可能で広く採用されている4つのWebArenaシミュレーション環境の上に構築されたWebChoreArenaは、厳密な再現性を確保し、確立されたWebArenaベンチマークと公正かつ直接的な比較を可能にし、エージェントの進捗に関する重要な洞察を提供する。
GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Pro で表される LLM が進化するにつれて, WebChoreArena 上では顕著な性能向上が見られた。
これらの結果から, WebChoreArenaは, より明瞭な最先端のLDMの進展を測定するのに最適であることが示唆された。
それでも、その結果は、Gemini 2.5 Proでさえ、WebArenaと比べて改善の余地がかなり残っており、WebChoreArenaがもたらす課題の増加を強調していることを示している。
関連論文リスト
- A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.12763718252896]
Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents -- WebAgents -- を活用することで、生産性と効率が劇的に向上する。
LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
論文 参考訳(メタデータ) (2025-03-30T08:15:44Z) - R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。