論文の概要: EconWebArena: Benchmarking Autonomous Agents on Economic Tasks in Realistic Web Environments
- arxiv url: http://arxiv.org/abs/2506.08136v1
- Date: Mon, 09 Jun 2025 18:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.373062
- Title: EconWebArena: Benchmarking Autonomous Agents on Economic Tasks in Realistic Web Environments
- Title(参考訳): EconWebArena: 現実的なWeb環境における経済課題における自律エージェントのベンチマーク
- Authors: Zefang Liu, Yinzhu Quan,
- Abstract要約: EconWebArenaは、現実的なWeb環境における複雑なマルチモーダル経済タスクにおいて、自律エージェントを評価するためのベンチマークである。
このベンチマークは、マクロ経済学、労働、金融、貿易、公共政策といった分野にまたがる82の権威あるウェブサイトから360のキュレートされたタスクで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EconWebArena, a benchmark for evaluating autonomous agents on complex, multimodal economic tasks in realistic web environments. The benchmark comprises 360 curated tasks from 82 authoritative websites spanning domains such as macroeconomics, labor, finance, trade, and public policy. Each task challenges agents to navigate live websites, interpret structured and visual content, interact with real interfaces, and extract precise, time-sensitive data through multi-step workflows. We construct the benchmark by prompting multiple large language models (LLMs) to generate candidate tasks, followed by rigorous human curation to ensure clarity, feasibility, and source reliability. Unlike prior work, EconWebArena emphasizes fidelity to authoritative data sources and the need for grounded web-based economic reasoning. We evaluate a diverse set of state-of-the-art multimodal LLMs as web agents, analyze failure cases, and conduct ablation studies to assess the impact of visual grounding, plan-based reasoning, and interaction design. Our results reveal substantial performance gaps and highlight persistent challenges in grounding, navigation, and multimodal understanding, positioning EconWebArena as a rigorous testbed for economic web intelligence.
- Abstract(参考訳): EconWebArenaは、現実的なWeb環境において、複雑なマルチモーダルな経済タスクにおいて自律エージェントを評価するためのベンチマークである。
このベンチマークは、マクロ経済学、労働、金融、貿易、公共政策といった分野にまたがる82の権威あるウェブサイトから360のキュレートされたタスクで構成されている。
各タスクは、エージェントに対して、ライブWebサイトをナビゲートし、構造化されたビジュアルコンテンツを解釈し、実際のインターフェースと対話し、マルチステップのワークフローを通じて正確で時間に敏感なデータを抽出する。
我々は,複数の大規模言語モデル(LLM)に候補タスクを生成するように促し,その上で厳密な人為的なキュレーションを行い,明確さ,実現可能性,信頼性を確保することでベンチマークを構築した。
以前の作業とは異なり、EconWebArenaは権威のあるデータソースへの忠実さと、基盤となるWebベースの経済推論の必要性を強調している。
我々は,多種多様なマルチモーダルLCMをWebエージェントとして評価し,故障事例を分析し,視覚的接地,計画に基づく推論,相互作用設計の影響を評価するためのアブレーション研究を行った。
本研究では,EconWebArenaを経済的なWebインテリジェンスのための厳格なテストベッドとして位置づけ,基盤化,ナビゲーション,マルチモーダル理解において,パフォーマンス上の大きなギャップを明らかにした。
関連論文リスト
- REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。
結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。
オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (2025-04-02T05:51:29Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。