論文の概要: DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research
- arxiv url: http://arxiv.org/abs/2505.19253v1
- Date: Sun, 25 May 2025 18:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.007223
- Title: DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research
- Title(参考訳): DeepResearchGym:Deep Researchのための無料で透明で再現可能な評価サンドボックス
- Authors: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong,
- Abstract要約: DeepResearchGymはオープンソースのサンドボックスで、検索APIと、ディープリサーチシステムのベンチマークのための厳格な評価プロトコルを組み合わせる。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
- 参考スコア(独自算出の注目度): 25.368303145176554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research systems represent an emerging class of agentic information retrieval methods that generate comprehensive and well-supported reports to complex queries. However, most existing frameworks rely on dynamic commercial search APIs, which pose reproducibility and transparency challenges in addition to their cost. To address these limitations, we introduce DeepResearchGym, an open-source sandbox that combines a reproducible search API with a rigorous evaluation protocol for benchmarking deep research systems. The API indexes large-scale public web corpora, namely ClueWeb22 and FineWeb, using a state-of-the-art dense retriever and approximate nearest neighbor search via DiskANN. It achieves lower latency than popular commercial APIs while ensuring stable document rankings across runs, and is freely available for research use. To evaluate deep research systems' outputs, we extend the Researchy Questions benchmark with automatic metrics through LLM-as-a-judge assessments to measure alignment with users' information needs, retrieval faithfulness, and report quality. Experimental results show that systems integrated with DeepResearchGym achieve performance comparable to those using commercial APIs, with performance rankings remaining consistent across evaluation metrics. A human evaluation study further confirms that our automatic protocol aligns with human preferences, validating the framework's ability to help support controlled assessment of deep research systems. Our code and API documentation are available at https://www.deepresearchgym.ai.
- Abstract(参考訳): ディープリサーチシステムは、複雑なクエリに対する包括的でサポートされたレポートを生成するエージェント情報検索手法の新たなクラスを表す。
しかし、既存のほとんどのフレームワークは動的な商用検索APIに依存しており、そのコストに加えて再現性と透明性の課題を引き起こす。
これらの制限に対処するために,再現可能な検索APIと,詳細な研究システムのベンチマークを行うための厳密な評価プロトコルを組み合わせた,オープンソースのサンドボックスであるDeepResearchGymを紹介した。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
深層研究システムのアウトプットを評価するため,LLM-as-a-judgeアセスメントによる自動測定値によるResearchy Questionsベンチマークを拡張し,ユーザの情報ニーズ,検索忠実度,報告品質を計測する。
実験の結果,DeepResearchGymと統合されたシステムは商用APIと同等の性能を達成し,評価指標間で性能ランキングが一定であることが確認された。
人的評価研究は、我々の自動プロトコルが人間の好みと一致していることをさらに確認し、深層研究システムの制御された評価を支援するためのフレームワークの能力を検証する。
私たちのコードとAPIドキュメントはhttps://www.deepresearchgym.ai.comで公開されています。
関連論文リスト
- InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Rankify: A Comprehensive Python Toolkit for Retrieval, Re-Ranking, and Retrieval-Augmented Generation [15.31883349259767]
Rankifyはオープンソースのツールキットで、検索、再ランク付け、RAGをコヒーシブなフレームワーク内で統一するように設計されている。
厳密でスパースなリトリーバーを含む幅広い検索技術をサポートし、最先端のリグレードモデルも備えている。
Rankifyには、Huggingfaceで利用可能なベンチマークを容易にするために、検索済みのデータセットのコレクションが含まれている。
論文 参考訳(メタデータ) (2025-02-04T16:33:25Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するためのベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。