論文の概要: Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks
- arxiv url: http://arxiv.org/abs/2604.24964v1
- Date: Mon, 27 Apr 2026 20:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.582775
- Title: Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks
- Title(参考訳): Odysseys: リアルなロング水平タスクでWebエージェントをベンチマークする
- Authors: Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov,
- Abstract要約: 我々はOdysseysについて紹介する。Odysseysは、ライブインターネット上で評価された実世界のブラウジングセッションから得られた200のロングホライゾンWebタスクのベンチマークである。
その結果,2進パス/フェイル評価は長距離設定では不十分であり,各Odysseysタスクに平均6.1グレードのルーリックをアノテートするルーリックに基づく評価が導入された。
最強のモデルは44.5%の成功率に達しており、将来の改善の余地は十分にある。
- 参考スコア(独自算出の注目度): 67.44219836008348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing web agent benchmarks have largely converged on short, single-site tasks that frontier models are approaching saturation on. However, real world web use consists of long-horizon, multi-site workflows. Common web navigation tasks, such as comparing products across different domains, planning trips across multiple services, or summarizing information from multiple search queries, require sustained context and cross-site reasoning over potentially hours of browsing. To capture and evaluate such behaviors, we introduce Odysseys: a benchmark of 200 long-horizon web tasks derived from real world browsing sessions evaluated on the live Internet. We find that binary pass/fail evaluation is inadequate for long-horizon settings and introduce a rubric-based evaluation, annotating each Odysseys task with an average of 6.1 graded rubrics. We demonstrate that this yields higher agreement with humans and provides a more fine-grained signal than commonly used trajectory-level LLM-as-a-judge evaluation metrics. We tested several leading frontier models and find that the strongest models achieve a success rate of 44.5%, which leaves substantial room for future improvements. Beyond task success, we argue that efficiency is a first-class concern for long-horizon agents. We introduce a Trajectory Efficiency metric (rubric score per step) and find that even frontier agents achieve only 1.15%, marking an evident need for agents that can succeed efficiently and not simply eventually. Odysseys isolates the critical evaluation of long-horizon proficiency in open-web environments, providing a realistic benchmark to measure progress towards computer-use agents that can potentially productively operate for hours. We release our tasks, evaluation scripts, and other results at https://odysseys-website.pages.dev
- Abstract(参考訳): 既存のWebエージェントベンチマークは、フロンティアモデルが飽和に近づいている短い単一サイトタスクに大きく収束している。
しかし、現実世界のWeb利用は、長期にわたる多サイトワークフローで構成されている。
さまざまなドメインにわたる製品の比較、複数のサービス横断の計画旅行、複数の検索クエリからの情報の要約といった一般的なWebナビゲーションタスクは、潜在的に数時間のブラウジングに対して、持続的なコンテキストとクロスサイト推論を必要とする。
Odysseys: a benchmark of 200 long-horizon web task from real world browsing sessions based on the live Internet。
その結果,2進パス/フェイル評価は長距離設定では不十分であり,各Odysseysタスクに平均6.1グレードのルーリックをアノテートするルーリックに基づく評価が導入された。
我々は,この手法が人間との一致度を高め,一般的な軌跡レベルのLCM-as-a-judge評価指標よりもきめ細かな信号を提供することを示した。
我々はいくつかの主要なフロンティアモデルをテストし、最強のモデルが44.5%の成功率を達成することを発見した。
タスクの成功以外にも、効率性は長期的なエージェントにとって第一級の関心事であると主張する。
トラジェクトリー効率測定(ステップ当たりのルブリックスコア)を導入し、フロンティアエージェントでさえ1.15%しか達成できず、効率よく成功できるエージェントの明確な必要性を示す。
Odysseysは、オープンなWeb環境における長期的熟練度に対する批判的な評価を分離し、何時間も生産的に操作できるコンピュータ利用エージェントへの進捗を計測するためのリアルなベンチマークを提供する。
タスク、評価スクリプト、その他の結果はhttps://odysseys-website.devで公開しています。
関連論文リスト
- Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows [10.318744035680398]
大規模言語モデル(LLM)は、複雑で長期の推論を必要とする現実世界のアプリケーションにますます多くデプロイされている。
OdysseyBenchは、様々なオフィスアプリケーションにわたる長期にわたってLLMエージェントを評価するための包括的なベンチマークである。
スケーラブルなベンチマーク作成を実現するために,長期ワークフローベンチマークの自動生成を行うマルチエージェントフレームワークであるHomerAgentsを提案する。
論文 参考訳(メタデータ) (2025-08-12T17:53:03Z) - WideSearch: Benchmarking Agentic Broad Info-Seeking [26.110175228335894]
大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。
ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。
我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
論文 参考訳(メタデータ) (2025-08-11T14:03:09Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。