論文の概要: BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
- arxiv url: http://arxiv.org/abs/2508.06600v1
- Date: Fri, 08 Aug 2025 17:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.466532
- Title: BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
- Title(参考訳): BrowseComp-Plus:Deep-Research Agentのより公平で透明な評価ベンチマーク
- Authors: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin,
- Abstract要約: BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
- 参考スコア(独自算出の注目度): 74.10138164281618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep-Research agents, which integrate large language models (LLMs) with search tools, have shown success in improving the effectiveness of handling complex queries that require iterative search planning and reasoning over search results. Evaluations on current benchmarks like BrowseComp relies on black-box live web search APIs, have notable limitations in (1) fairness: dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep research methods; (2) transparency: lack of control over the document corpus makes it difficult to isolate retriever contributions. In other words, the current evaluations may compare a complete deep research system at a given time, but they do not foster well-controlled experiments to provide insights into the capability of underlying deep research LLMs. To address these challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp, employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus includes human-verified supporting documents and mined challenging negatives, enabling controlled experimentation. The benchmark is shown to be effective in distinguishing the performance of deep research systems. For instance, the open-source model Search-R1, when paired with the BM25 retriever, achieves 3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with fewer search calls. This benchmark allows comprehensive evaluation and disentangled analysis of deep research agents and retrieval methods, fostering insights into retrieval effectiveness, citation accuracy, and context engineering in Deep-Research system.
- Abstract(参考訳): 大規模言語モデル(LLM)と検索ツールを統合したDeep-Researchエージェントは、検索結果の反復的な計画と推論を必要とする複雑なクエリの処理効率を向上させることに成功した。
BrowseCompのような現在のベンチマークの評価は、ブラックボックスのライブWebサーチAPIに依存しており、(1)公正さ: 動的で不透明なWeb APIは、ディープリサーチ手法の公正な比較と再現性を妨げている; (2) 透明性: ドキュメントコーパスの制御の欠如により、レトリバーのコントリビューションの分離が困難である。
言い換えれば、現在の評価は、与えられた時点で完全な深層研究システムと比較することができるが、基礎となる深層研究LLMの能力に関する洞察を提供するために、十分に制御された実験を育むことはできない。
これらの課題に対処するために,BrowseCompから派生したベンチマークであるBrowseComp-Plusを紹介した。
BrowseComp-Plusの各クエリには、人間によって検証されたサポートドキュメントと、制御された実験を可能にする挑戦的ネガティブが含まれている。
このベンチマークは、ディープリサーチシステムの性能を区別するのに有効であることが示されている。
例えば、オープンソースのSearch-R1はBM25レトリバーと組み合わせて3.86%の精度を達成し、GPT-5は55.9%の精度を達成している。
GPT-5とQwen3-Embedding-8Bレトリバーを統合することで、より少ない検索で70.1%の精度が向上した。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価と非絡み合いの分析を可能にし、ディープリサーチシステムにおける検索の有効性、引用精度、コンテキストエンジニアリングに関する洞察を促進する。
関連論文リスト
- DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [26.374811264047537]
推論集約型情報検索に適した検索パイプラインである textbfDIVER を提案する。
BRIGHTベンチマークでは、DIVERは元のクエリで最先端のnDCG@10スコアの41.6と28.9を達成している。
コードと検索モデルはまもなくリリースされます。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research [25.368303145176554]
DeepResearchGymはオープンソースのサンドボックスで、検索APIと、ディープリサーチシステムのベンチマークのための厳格な評価プロトコルを組み合わせる。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
論文 参考訳(メタデータ) (2025-05-25T18:16:13Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - LevelRAG: Enhancing Retrieval-Augmented Generation with Multi-hop Logic Planning over Rewriting Augmented Searchers [24.01783076521377]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための重要な方法である
既存のRAGメソッドは通常、検索範囲を広げるためにハイブリッド検索を使用しながら、ユーザ意図を明確にし、マルチホップロジックを管理するためにクエリ書き換えを使用する。
本稿では,複雑なクエリをアトミックなクエリに分解する高レベル検索手法を提案する。
高精度なキーワード検索にスパース検索の長所を利用するために,Lucene構文を用いて検索精度を向上させるスパース検索手法を開発した。
論文 参考訳(メタデータ) (2025-02-25T12:09:16Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。