論文の概要: WideSearch: Benchmarking Agentic Broad Info-Seeking
- arxiv url: http://arxiv.org/abs/2508.07999v1
- Date: Mon, 11 Aug 2025 14:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.131214
- Title: WideSearch: Benchmarking Agentic Broad Info-Seeking
- Title(参考訳): WideSearch: エージェントのブロード情報検索のベンチマーク
- Authors: Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang,
- Abstract要約: 大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。
ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。
我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
- 参考スコア(独自算出の注目度): 22.332501492401516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From professional research to everyday planning, many tasks are bottlenecked by wide-scale information seeking, which is more repetitive than cognitively complex. With the rapid development of Large Language Models (LLMs), automated search agents powered by LLMs offer a promising solution to liberate humans from this tedious work. However, the capability of these agents to perform such "wide-context" collection reliably and completely remains largely unevaluated due to a lack of suitable benchmarks. To bridge this gap, we introduce WideSearch, a new benchmark engineered to evaluate agent reliability on these large-scale collection tasks. The benchmark features 200 manually curated questions (100 in English, 100 in Chinese) from over 15 diverse domains, grounded in real user queries. Each task requires agents to collect large-scale atomic information, which could be verified one by one objectively, and arrange it into a well-organized output. A rigorous five-stage quality control pipeline ensures the difficulty, completeness, and verifiability of the dataset. We benchmark over 10 state-of-the-art agentic search systems, including single-agent, multi-agent frameworks, and end-to-end commercial systems. Most systems achieve overall success rates near 0\%, with the best performer reaching just 5\%. However, given sufficient time, cross-validation by multiple human testers can achieve a near 100\% success rate. These results demonstrate that present search agents have critical deficiencies in large-scale information seeking, underscoring urgent areas for future research and development in agentic search. Our dataset, evaluation pipeline, and benchmark results have been publicly released at https://widesearch-seed.github.io/
- Abstract(参考訳): 専門的な研究から日常的な計画まで、多くのタスクは、認知的に複雑であるよりも繰り返しである広範囲な情報探索によってボトルネックとなる。
LLM(Large Language Models)の急速な開発に伴い、LLMを利用した自動検索エージェントは、この面倒な作業から人間を解放する有望なソリューションを提供する。
しかし、これらのエージェントがこのような"ワイド・コンテクスト"コレクションを確実に実行できることは、適切なベンチマークが欠如していることから、ほとんど評価されていない。
このギャップを埋めるため、大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介した。
このベンチマークでは、15以上のドメインから200の質問(英語で100、中国語で100)が、実際のユーザクエリに基づいて作成されている。
各タスクでは、エージェントが大規模原子情報を収集し、1つずつ客観的に検証し、適切に編成された出力に配置する必要がある。
厳格な5段階品質制御パイプラインは、データセットの難易度、完全性、妥当性を保証する。
我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
ほとんどのシステムは0\%近くで全体的な成功率を達成するが、最高のパフォーマーは5\%にしか達しない。
しかし、十分な時間があれば、複数の人間テスターによるクロスバリデーションは、約100倍の成功率を達成することができる。
これらの結果から, 大規模情報探索において, エージェント検索における今後の研究・発展の急激な課題を浮き彫りにし, 重要な欠陥があることが示唆された。
データセット、評価パイプライン、ベンチマーク結果はhttps://widesearch-seed.github.io/で公開されている。
関連論文リスト
- DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge [34.672897171399775]
エージェント検索システムは、ウェブを自律的に閲覧し、情報を合成し、包括的な引用支援の回答を返す。
Mind2Web 2は、1000時間以上の人的労働力で構築された130の現実的で高品質で長期にわたるタスクのベンチマークである。
本手法は,木構造設計に基づくタスク固有の判断エージェントを構築し,回答の正しさとソース属性の両方を自動的に評価する。
論文 参考訳(メタデータ) (2025-06-26T17:32:50Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。
タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。
ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文 参考訳(メタデータ) (2025-05-06T14:29:47Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。