論文の概要: BEARCUBS: A benchmark for computer-using web agents
- arxiv url: http://arxiv.org/abs/2503.07919v1
- Date: Mon, 10 Mar 2025 23:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.477102
- Title: BEARCUBS: A benchmark for computer-using web agents
- Title(参考訳): BEARCUBS:コンピュータ用Webエージェントのベンチマーク
- Authors: Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer,
- Abstract要約: BEARCUBSは、WebエージェントがWebから事実情報を検索、閲覧、識別する能力を評価するために設計された111の情報検索質問のベンチマークである。
BEARCUBSを解くには、合成されたページやシミュレーションされたページではなく、ライブのWebコンテンツにアクセスする必要がある。
人間による研究では、BEARCUBSの質問は解決可能であるが、非自明(84.7%の正確性)であり、探索の非効率性とドメイン知識のギャップを共通の障害点として明らかにしている。
- 参考スコア(独自算出の注目度): 33.1173997263462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern web agents possess computer use abilities that allow them to interact with webpages by sending commands to a virtual keyboard and mouse. While such agents have considerable potential to assist human users with complex tasks, evaluating their capabilities in real-world settings poses a major challenge. To this end, we introduce BEARCUBS, a "small but mighty" benchmark of 111 information-seeking questions designed to evaluate a web agent's ability to search, browse, and identify factual information from the web. Unlike prior web agent benchmarks, solving BEARCUBS requires (1) accessing live web content rather than synthetic or simulated pages, which captures the unpredictability of real-world web interactions; and (2) performing a broad range of multimodal interactions (e.g., video understanding, 3D navigation) that cannot be bypassed via text-based workarounds. Each question in BEARCUBS has a corresponding short, unambiguous answer and a human-validated browsing trajectory, allowing for transparent evaluation of agent performance and strategies. A human study confirms that BEARCUBS questions are solvable but non-trivial (84.7% human accuracy), revealing search inefficiencies and domain knowledge gaps as common failure points. By contrast, state-of-the-art computer-using agents underperform, with the best-scoring system (OpenAI's Operator) reaching only 24.3% accuracy. These results highlight critical areas for improvement, including reliable source selection and more powerful multimodal capabilities. To facilitate future research, BEARCUBS will be updated periodically to replace invalid or contaminated questions, keeping the benchmark fresh for future generations of web agents.
- Abstract(参考訳): 現代のウェブエージェントは、仮想キーボードとマウスにコマンドを送ることで、ウェブページと対話できるコンピュータ利用能力を持っている。
このようなエージェントは、複雑なタスクで人間のユーザを支援する可能性があるが、現実の環境でその能力を評価することは大きな課題である。
BEARCUBSは,WebエージェントがWebから事実情報を検索し,閲覧し,識別する能力を評価するために設計された,111の情報検索質問の"小さいが,強大な"ベンチマークである。
従来のWebエージェントベンチマークとは異なり、BEARCUBSの解決には、(1)実世界のWebインタラクションの予測不可能性を捉える合成ページやシミュレートページではなく、ライブWebコンテンツにアクセスすること、(2)テキストベースの回避手段をバイパスできない幅広いマルチモーダルインタラクション(ビデオ理解、3Dナビゲーションなど)を実行することが必要である。
BEARCUBSの各質問には、対応する短く曖昧な回答と、人間による検証されたブラウジングの軌跡があり、エージェントのパフォーマンスと戦略を透過的に評価することができる。
人間による研究では、BEARCUBSの質問は解決可能であるが、非自明(84.7%の正確性)であり、探索の非効率性とドメイン知識のギャップを共通の障害点として明らかにしている。
対照的に、最先端のコンピュータ利用エージェントは性能が低く、ベストスコアシステム(OpenAIのオペレータ)は24.3%の精度しか達成できなかった。
これらの結果は、信頼性の高いソース選択や、より強力なマルチモーダル機能など、改善すべき重要な領域を浮き彫りにしている。
将来の調査を容易にするため、BEARCUBSは定期的に更新され、無効または汚染された質問を置き換える。
関連論文リスト
- Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。
結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。
オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (2025-04-02T05:51:29Z) - A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.12763718252896]
Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents -- WebAgents -- を活用することで、生産性と効率が劇的に向上する。
LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
論文 参考訳(メタデータ) (2025-03-30T08:15:44Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents [9.003325286793288]
人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
本稿では、レベル認識ナビゲーションによる汎用的かつトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、十分な注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
論文 参考訳(メタデータ) (2024-12-20T08:03:12Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。