論文の概要: WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work
Tasks?
- arxiv url: http://arxiv.org/abs/2403.07718v1
- Date: Tue, 12 Mar 2024 14:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:01:50.724694
- Title: WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work
Tasks?
- Title(参考訳): WorkArena: 共通知識作業タスクの解決におけるWebエージェントの能力
- Authors: Alexandre Drouin, Maxime Gasse, Massimo Caccia, Issam H. Laradji,
Manuel Del Verme, Tom Marty, L\'eo Boisvert, Megh Thakkar, Quentin Cappart,
David Vazquez, Nicolas Chapados, Alexandre Lacoste
- Abstract要約: 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく29のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
- 参考スコア(独自算出の注目度): 85.05288624713359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the use of large language model-based agents for interacting with
software via web browsers. Unlike prior work, we focus on measuring the agents'
ability to perform tasks that span the typical daily work of knowledge workers
utilizing enterprise software systems. To this end, we propose WorkArena, a
remote-hosted benchmark of 29 tasks based on the widely-used ServiceNow
platform. We also introduce BrowserGym, an environment for the design and
evaluation of such agents, offering a rich set of actions as well as multimodal
observations. Our empirical evaluation reveals that while current agents show
promise on WorkArena, there remains a considerable gap towards achieving full
task automation. Notably, our analysis uncovers a significant performance
disparity between open and closed-source LLMs, highlighting a critical area for
future exploration and development in the field.
- Abstract(参考訳): 本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
従来の作業とは違って,エンタープライズソフトウェアシステムを利用した知識労働者の日常業務にまたがる作業を行うエージェントの能力の測定に重点を置いている。
そこで本稿では,広く使用されているservicenowプラットフォームに基づく29タスクの遠隔ホストベンチマークであるworkarenaを提案する。
また,このようなエージェントの設計と評価のための環境であるbrowsergymについても紹介する。
私たちの経験的評価によると、現在のエージェントはWorkArenaを約束しているが、完全なタスク自動化を達成するための大きなギャップが残っている。
特に,オープンソースLLMとクローズドソースLLMの大幅な性能格差を明らかにし,今後の研究・開発における重要な領域を明らかにする。
関連論文リスト
- OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Exploring Large Language Model based Intelligent Agents: Definitions,
Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。
定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。
我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文 参考訳(メタデータ) (2024-01-07T09:08:24Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - AppAgent: Multimodal Agents as Smartphone Users [23.318925173980446]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文 参考訳(メタデータ) (2023-12-21T11:52:45Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [94.80987984486356]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Power-up! What Can Generative Models Do for Human Computation Workflows? [13.484359389266864]
クラウドソーシングの一環としての大規模言語モデル(LLM)の調査は、まだ未調査の領域である。
実証的な観点から、LLMがクラウドソーシングの有効性をどのように改善できるかについては、現時点ではほとんど分かっていない。
論文 参考訳(メタデータ) (2023-07-05T12:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。