論文の概要: Emergence WebVoyager: Toward Consistent and Transparent Evaluation of (Web) Agents in The Wild
- arxiv url: http://arxiv.org/abs/2603.29020v1
- Date: Mon, 30 Mar 2026 21:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.871212
- Title: Emergence WebVoyager: Toward Consistent and Transparent Evaluation of (Web) Agents in The Wild
- Title(参考訳): Emergence WebVoyager: 野生における(Web)エージェントの一貫性と透明な評価を目指して
- Authors: Deepak Akkil, Mowafak Allaham, Amal Raj, Tamer Abuelsaad, Ravi Kokku,
- Abstract要約: 本研究は,既存のAIエージェント評価プラクティスにおける永続的欠点を明らかにする。
本稿では,評価方法論を標準化したWebVoyagerベンチマークの強化版であるEmergence WebVoyagerを紹介する。
OpenAI Operatorを評価するためにこのフレームワークを適用すると、ドメインとタスクタイプ間での大幅なパフォーマンスの変動が明らかになる。
- 参考スコア(独自算出の注目度): 0.4077787659104315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation of AI agents operating in complex, real-world environments requires methodologies that are robust, transparent, and contextually aligned with the tasks agents are intended to perform. This study identifies persistent shortcomings in existing AI agent evaluation practices that are particularly acute in web agent evaluation, as exemplified by our audit of WebVoyager, including task-framing ambiguity and operational variability that hinder meaningful and reproducible performance comparisons. To address these challenges, we introduce Emergence WebVoyager, an enhanced version of the WebVoyager benchmark that standardizes evaluation methodology through clear guidelines for task instantiation, failure handling, annotation, and reporting. Emergence WebVoyager achieves an inter-annotator agreement of 95.9\%, indicating improved clarity and reliability in both task formulation and evaluation. Applying this framework to evaluate OpenAI Operator reveals substantial performance variation across domains and task types, with an overall success rate of 68.6\%, substantially lower than the 87\% previously reported by OpenAI, demonstrating the utility of our approach for more rigorous and comparable web agent evaluation.
- Abstract(参考訳): 複雑で現実的な環境で運用されているAIエージェントの信頼性の高い評価には、タスクエージェントの実行を意図した、堅牢で透明で、コンテキストに整合した方法論が必要である。
本研究は,WebVoyagerの監査で実証したように,Webエージェント評価において特に急激な既存のAIエージェント評価プラクティスにおいて,有意義で再現可能なパフォーマンス比較を妨げているタスクフレーミングの曖昧さや運用上の可変性など,永続的な欠点を明らかにした。
これらの課題に対処するために、WebVoyagerベンチマークの強化版であるEmergence WebVoyagerを紹介します。
Emergence WebVoyagerは95.9 %のアノテータ間契約を達成し、タスクの定式化と評価の両方において明確性と信頼性の向上を示す。
OpenAI Operatorを評価するためにこのフレームワークを適用すると、ドメインとタスクタイプ間での大幅なパフォーマンス変化が明らかになり、全体的な成功率は68.6\%となり、OpenAIが以前報告した87\%よりも大幅に低い。
関連論文リスト
- Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis [3.3237915628874632]
効果的なエージェント評価は、会話の質、効率性、およびエージェントエラーの体系的診断を取り入れて、正確性のみに留まらないと論じる。
エージェントの旋回効率と中間進捗を両立させる新しい指標を提案する。
TEDフレームワークは、モデルとユーザの専門知識レベルをまたいだエージェントパフォーマンスに関する新たな洞察を明らかにします。
論文 参考訳(メタデータ) (2026-03-16T16:14:28Z) - Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction [7.731207237810125]
VAGENは、対話ツールを備えた検証エージェントを使用して、自律的に検証戦略を計画するフレームワークである。
VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度が有意に向上することを示す。
論文 参考訳(メタデータ) (2026-01-31T07:36:54Z) - Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality [62.43165871914528]
我々は、Web開発におけるLCM-as-a-judgeのパフォーマンスを評価するための体系的なベンチマークであるWebDevJudgeを紹介する。
WebDevJudgeは、構造化およびクエリグラウンドのルーリックで注釈付けされた、ペア化されたWeb実装よりも人間の好みラベルで構成されている。
詳細な分析によると、このギャップは、機能的同値性認識の失敗、タスク実現可能性の検証、バイアス軽減など、基本的なモデル上の制限に由来する。
論文 参考訳(メタデータ) (2025-10-21T12:16:04Z) - MAVUL: Multi-Agent Vulnerability Detection via Contextual Reasoning and Interactive Refinement [9.377934769326416]
MAVULは、コンテキスト推論と対話的洗練を統合した、新しいマルチエージェント脆弱性検出システムである。
その結果,MAVULは従来のマルチエージェントシステムよりも62%以上の精度で,単エージェントシステムでは600%以上の性能で性能が優れていた。
論文 参考訳(メタデータ) (2025-09-30T22:21:43Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Autonomous Evaluation and Refinement of Digital Agents [57.12281122337407]
ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。
我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。
論文 参考訳(メタデータ) (2024-04-09T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。