論文の概要: Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies
- arxiv url: http://arxiv.org/abs/2601.12369v1
- Date: Sun, 18 Jan 2026 11:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.600199
- Title: Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies
- Title(参考訳): ディープリサーチエージェントの組織化は可能か? : 専門分類学による合成ギャップの評価
- Authors: Ming Zhang, Jiabao Zhuang, Wenqing Jing, Ziyu Kong, Jingyi Deng, Yujiong Shen, Kexin Tan, Yuhang Zhao, Ning Luo, Renzhe Zheng, Jiahui Lin, Mingqi Wu, Long Ma, Yi Zou, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
- 参考スコア(独自算出の注目度): 57.11324429385405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research Agents are increasingly used for automated survey generation. However, whether they can write surveys like human experts remains unclear. Existing benchmarks focus on fluency or citation accuracy, but none evaluates the core capabilities: retrieving essential papers and organizing them into coherent knowledge structures. We introduce TaxoBench, a diagnostic benchmark derived from 72 highly-cited computer science surveys. We manually extract expert-authored taxonomy trees containing 3,815 precisely categorized citations as ground truth. Our benchmark supports two evaluation modes: Deep Research mode tests end-to-end retrieval and organization given only a topic, while Bottom-Up mode isolates structuring capability by providing the exact papers human experts used. We evaluate 7 leading Deep Research agents and 12 frontier LLMs. Results reveal a dual bottleneck: the best agent recalls only 20.9% of expert-selected papers, and even with perfect input, the best model achieves only 0.31 ARI in organization. Current deep research agents remain far from expert-level survey writing. Our benchmark is publicly available at https://github.com/KongLongGeFDU/TaxoBench.
- Abstract(参考訳): ディープリサーチエージェントは、自動サーベイ生成にますます使われています。
しかし、人間の専門家のような調査を書けるかどうかは不明だ。
既存のベンチマークでは、流布や引用の正確さに重点を置いているが、重要な論文を抽出し、それらを一貫性のある知識構造に整理するなど、コア機能を評価するものはない。
72件のコンピュータサイエンス調査から得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
我々のベンチマークでは、Deep Researchモードのエンドツーエンド検索と、トピックのみを付与する組織、Bottom-Upモードは、人間の専門家が使用した詳細な論文を提供することで、構造化能力を隔離する2つの評価モードがサポートされている。
7種類のDeep Researchエージェントと12個のフロンティアLSMを評価した。
最高のエージェントは専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
現在のディープリサーチエージェントは、専門家レベルの調査文書には程遠いままだ。
私たちのベンチマークはhttps://github.com/KongLongGeFDU/TaxoBench.comで公開されています。
関連論文リスト
- DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report [36.25273583677749]
我々は、ディープリサーチシステムを評価するための新しいベンチマークであるDeep Research Bench IIを紹介する。
各タスクに対して、システムは9430個の微細なバイナリルーブリックによって評価される長期の研究レポートを生成する必要がある。
我々は、Deep Research Bench IIにおける最先端のディープリサーチシステムを評価し、最強のモデルでさえ、ルーリックの50%以下を満たすことを発見した。
論文 参考訳(メタデータ) (2026-01-13T13:18:39Z) - Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation [2.985620880452744]
SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
論文 参考訳(メタデータ) (2025-06-15T02:23:47Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (2025-04-02T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。