Fugu-MT 論文翻訳(概要): WebArena: A Realistic Web Environment for Building Autonomous Agents

論文の概要: WebArena: A Realistic Web Environment for Building Autonomous Agents

arxiv url: http://arxiv.org/abs/2307.13854v1
Date: Tue, 25 Jul 2023 22:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 14:17:34.533584
Title: WebArena: A Realistic Web Environment for Building Autonomous Agents
Title（参考訳）: WebArena: 自律エージェント構築のための現実的なWeb環境
Authors: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig
Abstract要約: エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
参考スコア（独自算出の注目度）: 83.27871456780055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With generative AI advances, the exciting potential for autonomous agents to manage daily tasks via natural language commands has emerged. However, cur rent agents are primarily created and tested in simplified synthetic environments, substantially limiting real-world scenario representation. In this paper, we build an environment for agent command and control that is highly realistic and reproducible. Specifically, we focus on agents that perform tasks on websites, and we create an environment with fully functional websites from four common domains: e-commerce, social forum discussions, collaborative software development, and content management. Our environment is enriched with tools (e.g., a map) and external knowledge bases (e.g., user manuals) to encourage human-like task-solving. Building upon our environment, we release a set of benchmark tasks focusing on evaluating the functional correctness of task completions. The tasks in our benchmark are diverse, long-horizon, and are designed to emulate tasks that humans routinely perform on the internet. We design and implement several autonomous agents, integrating recent techniques such as reasoning before acting. The results demonstrate that solving complex tasks is challenging: our best GPT-4-based agent only achieves an end-to-end task success rate of 10.59%. These results highlight the need for further development of robust agents, that current state-of-the-art LMs are far from perfect performance in these real-life tasks, and that WebArena can be used to measure such progress. Our code, data, environment reproduction resources, and video demonstrations are publicly available at https://webarena.dev/.
Abstract（参考訳）: 生成AIの進歩により、自律エージェントが自然言語コマンドを介して日々のタスクを管理するエキサイティングな可能性が高まっている。しかし、カーレンタルエージェントは主に単純な合成環境で作成・テストされ、現実のシナリオ表現を実質的に制限している。本稿では,エージェントコマンドと制御のための環境を構築し,その環境を高度に現実的かつ再現可能とした。具体的には,Webサイト上でのタスクを実行するエージェントに着目し,eコマース,ソーシャルフォーラム議論,共同ソフトウェア開発,コンテンツ管理という4つの共通ドメインから,完全に機能するWebサイトを備えた環境を構築する。私たちの環境は、人間のようなタスク解決を促進するツール(地図など)と外部知識ベース(ユーザマニュアルなど)で豊かになっています。私たちの環境に基づいて、タスク完了の機能的正確性を評価することに焦点を当てた一連のベンチマークタスクをリリースします。私たちのベンチマークのタスクは多様で、長い水平で、人間が日常的にインターネット上で実行するタスクをエミュレートするように設計されています。我々はいくつかの自律エージェントを設計し実装し、行動前に推論のような最近の技術を統合する。 GPT-4をベースとしたエージェントは、エンドツーエンドのタスク成功率10.59%しか達成できません。これらの結果から,より堅牢なエージェントの開発の必要性,最先端のLMがこれらの実生活タスクにおける完璧なパフォーマンスには程遠いこと,WebArenaがそのような進歩を測定するために使用できること,などが浮かび上がっている。私たちのコード、データ、環境再生リソース、ビデオデモはhttps://webarena.dev/.com/で公開されています。

関連論文リスト

SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文参考訳（メタデータ） (2025-07-11T22:45:07Z)
FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文参考訳（メタデータ） (2025-05-26T08:21:46Z)
A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.12763718252896]
Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents -- WebAgents -- を活用することで、生産性と効率が劇的に向上する。 LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
論文参考訳（メタデータ） (2025-03-30T08:15:44Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文参考訳（メタデータ） (2024-09-27T08:17:53Z)
Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文参考訳（メタデータ） (2024-07-01T17:07:55Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文参考訳（メタデータ） (2024-02-27T14:47:53Z)
Environment Generation for Zero-Shot Compositional Reinforcement Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。 CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文参考訳（メタデータ） (2022-01-21T21:35:01Z)
Watch-And-Help: A Challenge for Social Perception and Human-AI Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。 WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文参考訳（メタデータ） (2020-10-19T21:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。