Fugu-MT 論文翻訳(概要): WebCanvas: Benchmarking Web Agents in Online Environments

論文の概要: WebCanvas: Benchmarking Web Agents in Online Environments

arxiv url: http://arxiv.org/abs/2406.12373v3
Date: Tue, 16 Jul 2024 06:19:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:39:37.031286
Title: WebCanvas: Benchmarking Web Agents in Online Environments
Title（参考訳）: WebCanvas: オンライン環境におけるWebエージェントのベンチマーク
Authors: Yichen Pan, Dehan Kong, Sida Zhou, Cheng Cui, Yifei Leng, Bing Jiang, Hangyu Liu, Yanyi Shang, Shuyan Zhou, Tongshuang Wu, Zhengyang Wu,
Abstract要約: WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
参考スコア（独自算出の注目度）: 29.278363444725628
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For web agents to be practically useful, they must adapt to the continuously evolving web environment characterized by frequent updates to user interfaces and content. However, most existing benchmarks only capture the static aspects of the web. To bridge this gap, we introduce WebCanvas, an innovative online evaluation framework for web agents that effectively addresses the dynamic nature of web interactions. WebCanvas contains three main components to facilitate realistic assessments: (1) A novel evaluation metric which reliably capture critical intermediate actions or states necessary for task completions while disregarding noise caused by insignificant events or changed web-elements. (2) A benchmark dataset called Mind2Web-Live, a refined version of original Mind2Web static dataset containing 542 tasks with 2439 intermediate evaluation states; (3) Lightweight and generalizable annotation tools and testing pipelines that enables the community to collect and maintain the high-quality, up-to-date dataset. Building on WebCanvas, we open-source an agent framework with extensible modules for reasoning, providing a foundation for the community to conduct online inference and evaluations. Our best-performing agent achieves a task success rate of 23.1% and a task completion rate of 48.8% on the Mind2Web-Live test set. Additionally, we analyze the performance discrepancies across various websites, domains, and experimental environments. We encourage the community to contribute further insights on online agent evaluation, thereby advancing this field of research.
Abstract（参考訳）: Webエージェントが実用的に有用であるためには、ユーザインターフェースやコンテンツへの頻繁な更新を特徴とする、継続的な進化するWeb環境に適応する必要がある。しかし、既存のベンチマークのほとんどは、Webの静的な側面のみをキャプチャしている。このギャップを埋めるために、WebCanvasはWebエージェントのための革新的なオンライン評価フレームワークであり、Webインタラクションの動的な性質を効果的に解決する。現実的な評価を促進するために, WebCanvas には3つの主要な要素がある。(1) 重要な中間動作やタスク完了に必要な状態を確実に捉えつつ,重要イベントや変更された Web 要素によるノイズを無視した,新たな評価指標。 2) Mind2Web-Liveと呼ばれるベンチマークデータセットは、オリジナルのMind2Web静的データセットの洗練されたバージョンで、2439の中間評価状態を持つ542のタスクを含む。 WebCanvas上に構築したエージェントフレームワークは,推論のための拡張可能なモジュールを備えたオープンソースであり,コミュニティがオンライン推論と評価を行うための基盤を提供する。ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。さらに,様々なWebサイト,ドメイン,実験環境におけるパフォーマンスの相違について分析する。我々は、オンラインエージェント評価に関するさらなる知見をコミュニティに提供し、この研究分野を前進させることを奨励する。

関連論文リスト

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts [59.68272935616536]
Avenir-Webは、現実世界のデプロイにおいて、Online-Mind2Webベンチマークの新たなオープンソース状態を達成するWebエージェントである。 Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web task。
論文参考訳（メタデータ） (2026-02-02T18:50:07Z)
Cybernaut: Towards Reliable Web Automation [1.885569013569835]
Cybernautは、堅牢なエンタープライズ利用のために設計されたWebオートメーションエージェントにおいて、高い実行一貫性を保証する新しいフレームワークである。 1) ユーザデモを線形ブラウジングタスクの信頼性の高い自動化命令に変換するSOPジェネレータ,(2) 複雑なWebインターフェースの課題に合わせた高精度なHTML DOM要素認識システム,(3) 実行の整合性を評価するための定量的メトリクス。
論文参考訳（メタデータ） (2025-08-21T18:39:35Z)
WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [27.091938524991534]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。 WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文参考訳（メタデータ） (2025-07-01T16:43:57Z)
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.32705135051486]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文参考訳（メタデータ） (2025-06-18T17:58:17Z)
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文参考訳（メタデータ） (2025-04-15T18:22:55Z)
An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文参考訳（メタデータ） (2025-04-02T05:51:29Z)
BEARCUBS: A benchmark for computer-using web agents [33.1173997263462]
BEARCUBSは、WebエージェントがWebから事実情報を検索、閲覧、識別する能力を評価するために設計された111の情報検索質問のベンチマークである。 BEARCUBSを解くには、合成されたページやシミュレーションされたページではなく、ライブのWebコンテンツにアクセスする必要がある。人間による研究では、BEARCUBSの質問は解決可能であるが、非自明(84.7%の正確性)であり、探索の非効率性とドメイン知識のギャップを共通の障害点として明らかにしている。
論文参考訳（メタデータ） (2025-03-10T23:50:30Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文参考訳（メタデータ） (2024-10-21T19:46:06Z)
From Grounding to Planning: Benchmarking Bottlenecks in Web Agents [1.6135641587748402]
一般的なWebベースのエージェントは、複雑なWeb環境と対話するためにますます不可欠である。しかし、実世界のWebアプリケーションにおける彼らのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ非常に低い精度が得られる。我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
論文参考訳（メタデータ） (2024-09-03T14:17:09Z)
WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文参考訳（メタデータ） (2024-06-01T00:32:26Z)
AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。 AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文参考訳（メタデータ） (2024-03-26T17:54:15Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。 GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文参考訳（メタデータ） (2024-01-25T03:33:18Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文参考訳（メタデータ） (2023-07-24T14:56:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。