Fugu-MT 論文翻訳(概要): AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

論文の概要: AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

arxiv url: http://arxiv.org/abs/2407.15711v2
Date: Mon, 21 Oct 2024 15:45:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 15:45:25.624608
Title: AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?
Title（参考訳）: AssistantBench: Webエージェントは現実的および時間消費的なタスクを解決できるか?
Authors: Ori Yoran, Samuel Joseph Amouyal, Chaitanya Malaviya, Ben Bogin, Ofir Press, Jonathan Berant,
Abstract要約: 言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
参考スコア（独自算出の注目度）: 50.36826943689364
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 26 points. While closed-book LMs perform well in terms of accuracy, they exhibit low precision and tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that open web navigation remains a major challenge.
Abstract（参考訳）: 言語エージェント(Language agent)は、言語モデル(LM)上に構築され、オープンウェブのような複雑な環境と対話できるシステムである。本研究では,そのようなエージェントがWeb上で現実的かつ時間を要するタスクをこなせるか,例えば不動産市場をモニタリングしたり,関連するビジネスを探索したりすることができるかを検討する。 AssistantBenchは、214の現実的なタスクからなる挑戦的な新しいベンチマークで、さまざまなシナリオやドメインをカバーして、自動的に評価できる。また,AssistantBenchは,26点以上の精度を達成できないため,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにする。クローズドブックのLMは精度が良いが、精度は低く、事実を幻覚させる傾向がある。最先端のWebエージェントはスコアがゼロに近い。さらに、SeePlanAct(SPA)を導入し、従来のエージェントを著しく上回り、SPAとクローズドブックモデルのアンサンブルが全体的なパフォーマンスに最高のものになった。さらに、現在のシステムの障害を分析し、オープンなWebナビゲーションが大きな課題であることを強調します。

関連論文リスト

LiveAgentBench: Comprehensive Benchmarking of Agentic Systems Across 104 Real-World Challenges [34.17635007594549]
実ユーザ要求を反映した104のシナリオを備えた総合ベンチマークであるLiveAgentBenchを紹介します。ソーシャルメディアや現実世界の製品に関する公開の質問から構築されている。このリリースには374のタスクと125のバリデーション、249のテストが含まれている。
論文参考訳（メタデータ） (2026-03-03T04:03:05Z)
Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments [14.079091139464175]
この研究は、エージェントスキルプロセスの形式的な数学的定義を導入し、その後、様々な大きさの言語モデルの体系的な評価を行った。その結果、小型モデルは信頼性の高いスキル選択に苦しむ一方で、中程度のサイズのSLM(約12B～30B)はエージェントスキルアプローチから大きく恩恵を受けることがわかった。
論文参考訳（メタデータ） (2026-02-18T17:52:17Z)
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文参考訳（メタデータ） (2026-01-17T01:29:30Z)
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文参考訳（メタデータ） (2025-04-15T18:22:55Z)
An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文参考訳（メタデータ） (2025-04-02T05:51:29Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文参考訳（メタデータ） (2024-11-10T18:50:51Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。 WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文参考訳（メタデータ） (2024-05-30T17:52:36Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文参考訳（メタデータ） (2023-09-15T05:44:08Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。