論文の概要: BEARCUBS: A benchmark for computer-using web agents
- arxiv url: http://arxiv.org/abs/2503.07919v1
- Date: Mon, 10 Mar 2025 23:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:27.582916
- Title: BEARCUBS: A benchmark for computer-using web agents
- Title(参考訳): BEARCUBS:コンピュータ用Webエージェントのベンチマーク
- Authors: Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer,
- Abstract要約: BEARCUBSは、WebエージェントがWebから事実情報を検索、閲覧、識別する能力を評価するために設計された111の情報検索質問のベンチマークである。
BEARCUBSを解くには、合成されたページやシミュレーションされたページではなく、ライブのWebコンテンツにアクセスする必要がある。
人間による研究では、BEARCUBSの質問は解決可能であるが、非自明(84.7%の正確性)であり、探索の非効率性とドメイン知識のギャップを共通の障害点として明らかにしている。
- 参考スコア(独自算出の注目度): 33.1173997263462
- License:
- Abstract: Modern web agents possess computer use abilities that allow them to interact with webpages by sending commands to a virtual keyboard and mouse. While such agents have considerable potential to assist human users with complex tasks, evaluating their capabilities in real-world settings poses a major challenge. To this end, we introduce BEARCUBS, a "small but mighty" benchmark of 111 information-seeking questions designed to evaluate a web agent's ability to search, browse, and identify factual information from the web. Unlike prior web agent benchmarks, solving BEARCUBS requires (1) accessing live web content rather than synthetic or simulated pages, which captures the unpredictability of real-world web interactions; and (2) performing a broad range of multimodal interactions (e.g., video understanding, 3D navigation) that cannot be bypassed via text-based workarounds. Each question in BEARCUBS has a corresponding short, unambiguous answer and a human-validated browsing trajectory, allowing for transparent evaluation of agent performance and strategies. A human study confirms that BEARCUBS questions are solvable but non-trivial (84.7% human accuracy), revealing search inefficiencies and domain knowledge gaps as common failure points. By contrast, state-of-the-art computer-using agents underperform, with the best-scoring system (OpenAI's Operator) reaching only 24.3% accuracy. These results highlight critical areas for improvement, including reliable source selection and more powerful multimodal capabilities. To facilitate future research, BEARCUBS will be updated periodically to replace invalid or contaminated questions, keeping the benchmark fresh for future generations of web agents.
- Abstract(参考訳): 現代のウェブエージェントは、仮想キーボードとマウスにコマンドを送ることで、ウェブページと対話できるコンピュータ利用能力を持っている。
このようなエージェントは、複雑なタスクで人間のユーザを支援する可能性があるが、現実の環境でその能力を評価することは大きな課題である。
BEARCUBSは,WebエージェントがWebから事実情報を検索し,閲覧し,識別する能力を評価するために設計された,111の情報検索質問の"小さいが,強大な"ベンチマークである。
従来のWebエージェントベンチマークとは異なり、BEARCUBSの解決には、(1)実世界のWebインタラクションの予測不可能性を捉える合成ページやシミュレートページではなく、ライブWebコンテンツにアクセスすること、(2)テキストベースの回避手段をバイパスできない幅広いマルチモーダルインタラクション(ビデオ理解、3Dナビゲーションなど)を実行することが必要である。
BEARCUBSの各質問には、対応する短く曖昧な回答と、人間による検証されたブラウジングの軌跡があり、エージェントのパフォーマンスと戦略を透過的に評価することができる。
人間による研究では、BEARCUBSの質問は解決可能であるが、非自明(84.7%の正確性)であり、探索の非効率性とドメイン知識のギャップを共通の障害点として明らかにしている。
対照的に、最先端のコンピュータ利用エージェントは性能が低く、ベストスコアシステム(OpenAIのオペレータ)は24.3%の精度しか達成できなかった。
これらの結果は、信頼性の高いソース選択や、より強力なマルチモーダル機能など、改善すべき重要な領域を浮き彫りにしている。
将来の調査を容易にするため、BEARCUBSは定期的に更新され、無効または汚染された質問を置き換える。
関連論文リスト
- R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - From Grounding to Planning: Benchmarking Bottlenecks in Web Agents [1.6135641587748402]
一般的なWebベースのエージェントは、複雑なWeb環境と対話するためにますます不可欠である。
しかし、実世界のWebアプリケーションにおける彼らのパフォーマンスは依然として貧弱であり、最先端のフロンティアモデルでさえ非常に低い精度が得られる。
我々は,計画コンポーネントと接地コンポーネントの区別を強化し,Mind2Webデータセット上で実験を精査することによって,新たな分析を行う。
論文 参考訳(メタデータ) (2024-09-03T14:17:09Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - Improving Playtesting Coverage via Curiosity Driven Reinforcement
Learning Agents [0.4129225533930966]
本稿では,ゲーム状態カバレッジを最大化するためにトレーニングされた強化学習エージェントを用いて,与えられたシナリオを自動的に探索し,テストする問題に対処する。
好奇心のあるエージェントは、地図の周りのさまざまな領域に到達するために必要な複雑なナビゲーションメカニズムを学ぶことができ、潜在的な問題を特定するために必要なデータを提供します。
論文 参考訳(メタデータ) (2021-03-25T12:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。