論文の概要: BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks
- arxiv url: http://arxiv.org/abs/2510.02418v1
- Date: Thu, 02 Oct 2025 15:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.100721
- Title: BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks
- Title(参考訳): BrowserArena: リアルタイムWebナビゲーションタスクにおけるLLMエージェントの評価
- Authors: Sagnik Anupam, Davis Brown, Shuo Li, Eric Wong, Hamed Hassani, Osbert Bastani,
- Abstract要約: 我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
- 参考スコア(独自算出の注目度): 51.803138848305814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM web agents now browse and take actions on the open web, yet current agent evaluations are constrained to sandboxed environments or artificial tasks. We introduce BrowserArena, a live open-web agent evaluation platform that collects user-submitted tasks, runs Arena-style head-to-head comparisons, and uses step-level human feedback to surface failure modes. Collecting and analyzing step-level annotations on the agent traces, we identify three consistent failure modes: captcha resolution, pop-up banner removal, and direct navigation to URLs. By constructing targeted datasets to further study these tasks, we discover variations in how different language models navigate these failure modes. We find, for example, that o4-mini deploys a wider variety of strategies to circumvent captcha resolution than other models and DeepSeek-R1 consistently misleads users about captcha resolution. Our findings surface both the diversity and brittleness of current web agents. More broadly, our benchmarking methodology provides an approach to evaluating and understanding web agent failure modes at scale.
- Abstract(参考訳): LLM WebエージェントはオープンなWeb上で閲覧およびアクションを取るが、現在のエージェント評価はサンドボックス環境や人工的なタスクに制約される。
BrowserArenaは、ユーザから送信されたタスクを収集し、Arenaスタイルのヘッド・ツー・ヘッド比較を実行し、ステップレベルのヒューマンフィードバックを使って障害モードを抽出する、ライブなオープンウェブエージェント評価プラットフォームである。
エージェントトレース上のステップレベルのアノテーションを収集し解析し、Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションという3つの一貫した障害モードを特定します。
ターゲットとするデータセットを構築してこれらのタスクをさらに研究することで、異なる言語モデルがこれらの障害モードをナビゲートする方法のバリエーションを発見する。
例えば、o4-miniは他のモデルよりもCaptchaの解像度を回避するための幅広い戦略を展開しており、DeepSeek-R1はユーザーを常にCaptchaの解像度について誤解させています。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
より広範に、我々のベンチマーク手法は、大規模にWebエージェントの障害モードを評価し、理解するためのアプローチを提供します。
関連論文リスト
- Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents [0.48156730450374763]
この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。
本稿では,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T19:34:49Z) - Redefining Website Fingerprinting Attacks With Multiagent LLMs [2.7117643001081437]
Webサイトフィンガープリント(WFP)は、ディープラーニングモデルを使用して、暗号化されたネットワークトラフィックを分類し、訪問したWebサイトを推論する。
本研究は,利用者が同一ウェブサイト上でも非常に多様な行動を示し,個人間で異なる交通パターンを生じさせることを示す。
論文 参考訳(メタデータ) (2025-09-15T21:17:04Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - WebRollback: Enhancing Web Agents with Explicit Rollback Mechanisms [52.942566473658054]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。