論文の概要: WebArena: A Realistic Web Environment for Building Autonomous Agents
- arxiv url: http://arxiv.org/abs/2307.13854v3
- Date: Wed, 25 Oct 2023 01:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 11:11:16.648419
- Title: WebArena: A Realistic Web Environment for Building Autonomous Agents
- Title(参考訳): WebArena: 自律エージェント構築のための現実的なWeb環境
- Authors: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek
Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, Uri Alon,
Graham Neubig
- Abstract要約: 我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
- 参考スコア(独自算出の注目度): 94.80987984486356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advances in generative AI, there is now potential for autonomous agents
to manage daily tasks via natural language commands. However, current agents
are primarily created and tested in simplified synthetic environments, leading
to a disconnect with real-world scenarios. In this paper, we build an
environment for language-guided agents that is highly realistic and
reproducible. Specifically, we focus on agents that perform tasks on the web,
and create an environment with fully functional websites from four common
domains: e-commerce, social forum discussions, collaborative software
development, and content management. Our environment is enriched with tools
(e.g., a map) and external knowledge bases (e.g., user manuals) to encourage
human-like task-solving. Building upon our environment, we release a set of
benchmark tasks focusing on evaluating the functional correctness of task
completions. The tasks in our benchmark are diverse, long-horizon, and designed
to emulate tasks that humans routinely perform on the internet. We experiment
with several baseline agents, integrating recent techniques such as reasoning
before acting. The results demonstrate that solving complex tasks is
challenging: our best GPT-4-based agent only achieves an end-to-end task
success rate of 14.41%, significantly lower than the human performance of
78.24%. These results highlight the need for further development of robust
agents, that current state-of-the-art large language models are far from
perfect performance in these real-life tasks, and that WebArena can be used to
measure such progress.
- Abstract(参考訳): 生成AIの進歩により、自律エージェントは自然言語コマンドを通じて日々のタスクを管理することが可能になった。
しかし、現在のエージェントは主に単純な合成環境で作成され、テストされ、現実世界のシナリオと切り離される。
本稿では,現実的で再現性の高い言語誘導エージェントのための環境を構築する。
具体的には、web上でタスクを行うエージェントに注目し、eコマース、ソーシャルフォーラムの議論、共同ソフトウェア開発、コンテンツ管理という4つの共通ドメインから完全に機能するwebサイトを構築する。
私たちの環境は、人間のようなタスク解決を促進するツール(地図など)と外部知識ベース(ユーザマニュアルなど)で豊かになっています。
私たちの環境に基づいて、タスク完了の機能的正確性を評価することに焦点を当てた一連のベンチマークタスクをリリースします。
私たちのベンチマークのタスクは多様で、長い水平で、人間が日常的にインターネット上で実行するタスクをエミュレートするように設計されています。
我々はいくつかのベースラインエージェントを実験し、行動前に推論などの最近の手法を統合する。
GPT-4をベースとしたベストエージェントは、エンド・ツー・エンドのタスク成功率14.41%に過ぎず、人間のパフォーマンス78.24%よりも大幅に低い。
これらの結果は、ロバストなエージェントのさらなる開発の必要性、現在の最先端の大規模言語モデルが実際のタスクにおける完全なパフォーマンスには程遠いこと、そして、webarenaがそのような進歩を測定するために使用できることを浮き彫りにしている。
関連論文リスト
- WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work
Tasks? [85.05288624713359]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく29のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist
Autonomous Agents for Desktop and Web [45.79408296386536]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal
Models [67.9935966375389]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - BEHAVIOR: Benchmark for Everyday Household Activities in Virtual,
Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。
これらの活動は現実的で多様性があり、複雑であるように設計されています。
われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文 参考訳(メタデータ) (2021-08-06T23:36:23Z) - VECA : A Toolkit for Building Virtual Environments to Train and Test
Human-like Agents [5.366273200529158]
そこで我々は,人間のようなエージェントをトレーニングし,テストするための実りの多い仮想環境を構築するための新しいVRベースのツールキットVECAを提案する。
VECAはヒューマノイドエージェントと環境マネージャを提供しており、エージェントはリッチな人間のような知覚を受け取り、包括的な相互作用を行うことができる。
VECAを動機付けるために、私たちはまた、初期の人間の発達に不可欠な4つの側面を表す(ただしこれらに限定されない)24のインタラクティブタスクを提供します。
論文 参考訳(メタデータ) (2021-05-03T11:42:27Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。