論文の概要: Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
- arxiv url: http://arxiv.org/abs/2506.21506v1
- Date: Thu, 26 Jun 2025 17:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.219147
- Title: Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge
- Title(参考訳): Mind2Web 2: Agent-as-a-Judgeによるエージェント検索の評価
- Authors: Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su,
- Abstract要約: 我々は,リアルタイムWebブラウジングと広範囲な情報合成を必要とする130の現実的,高品質,長期的タスクのベンチマークであるMind2Web 2を紹介する。
本稿では,時間的・複雑な回答を評価するための新しいエージェント・アズ・ア・ジャッジ・フレームワークを提案する。
我々は,9つのフロンティアエージェントサーチシステムと人間のパフォーマンスを総合的に評価し,詳細な誤り解析を行い,今後の発展に向けた洞察を得る。
- 参考スコア(独自算出の注目度): 34.672897171399775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic search such as Deep Research systems, where large language models autonomously browse the web, synthesize information, and return comprehensive citation-backed answers, represents a major shift in how users interact with web-scale information. While promising greater efficiency and cognitive offloading, the growing complexity and open-endedness of agentic search have outpaced existing evaluation benchmarks and methodologies, which largely assume short search horizons and static answers. In this paper, we introduce Mind2Web 2, a benchmark of 130 realistic, high-quality, and long-horizon tasks that require real-time web browsing and extensive information synthesis, constructed with over 1,000 hours of human labor. To address the challenge of evaluating time-varying and complex answers, we propose a novel Agent-as-a-Judge framework. Our method constructs task-specific judge agents based on a tree-structured rubric design to automatically assess both answer correctness and source attribution. We conduct a comprehensive evaluation of nine frontier agentic search systems and human performance, along with a detailed error analysis to draw insights for future development. The best-performing system, OpenAI Deep Research, can already achieve 50-70% of human performance while spending half the time, showing a great potential. Altogether, Mind2Web 2 provides a rigorous foundation for developing and benchmarking the next generation of agentic search systems.
- Abstract(参考訳): ディープリサーチシステムのようなエージェント検索では、大きな言語モデルがウェブを自律的に閲覧し、情報を合成し、包括的な引用に支えられた回答を返す。
高い効率性と認知的オフロードを約束する一方で、エージェント検索の複雑さとオープンディペンデンスの増加は、既存の評価ベンチマークや方法論を上回り、探索の地平線と静的な答えを主に想定している。
本稿では,1000時間以上の人的労働力で構築された,リアルタイムWebブラウジングと広範囲な情報合成を必要とする130の現実的,高品質,長期的タスクのベンチマークであるMind2Web 2を紹介する。
時間的および複雑な回答を評価することの課題に対処するために,新しいエージェント・アズ・ア・ジャッジ・フレームワークを提案する。
本手法は,木構造的ルーリック設計に基づくタスク固有判断エージェントを構築し,回答の正しさとソース属性の両方を自動的に評価する。
我々は,9つのフロンティアエージェントサーチシステムと人間のパフォーマンスを総合的に評価し,詳細な誤り解析を行い,今後の発展に向けた洞察を得る。
最高のパフォーマンスシステムであるOpenAI Deep Researchは、半分の時間を過ごしながら、すでに50~70%の人的パフォーマンスを達成することができ、大きな可能性を秘めている。
さらにMind2Web 2は、次世代のエージェント検索システムの開発とベンチマークのための厳格な基盤を提供する。
関連論文リスト
- From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - WebDancer: Towards Autonomous Information Seeking Agency [67.08393201285499]
エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。
データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。
我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
論文 参考訳(メタデータ) (2025-05-28T17:57:07Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents [9.003325286793288]
人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
本稿では、レベル認識ナビゲーションによる汎用的かつトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、十分な注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
論文 参考訳(メタデータ) (2024-12-20T08:03:12Z) - MindSearch: Mimicking Human Minds Elicits Deep AI Searcher [20.729251584466983]
我々は、Web情報検索と統合における人間の心を模倣するMindSearchを紹介した。
このフレームワークは、シンプルだが効果的なLLMベースのマルチエージェントフレームワークによってインスタンス化できる。
MindSearchは、深さと幅の点でレスポンス品質が大幅に改善されている。
論文 参考訳(メタデータ) (2024-07-29T17:12:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。