論文の概要: SAGE: Benchmarking and Improving Retrieval for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2602.05975v1
- Date: Thu, 05 Feb 2026 18:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.117268
- Title: SAGE: Benchmarking and Improving Retrieval for Deep Research Agents
- Title(参考訳): SAGE: ディープリサーチエージェントのベンチマークと検索の改善
- Authors: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao,
- Abstract要約: 6つのディープ・リサーチ・エージェントを評価し,全てのシステムが推論集約的な検索に苦しむことを発見した。
BM25 は LLM ベースのレトリバーを約30% 上回っている。
LLMを用いてメタデータとキーワードで文書を拡大するコーパスレベルのテスト時間スケーリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.53966065867568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.
- Abstract(参考訳): ディープリサーチエージェントは、複雑なクエリに対処する強力なシステムとして登場した。
一方、LSMベースのレトリバーは、指示に従うことや推論に強い能力を発揮している。
LLMベースのレトリバーは、ディープリサーチエージェントのワークフローに効果的に貢献できるか?
そこで本研究では,論文検索コーパス20万を用いて,4つの分野にわたる1200のクエリからなる学術文献検索のベンチマークであるSAGEを紹介し,深層調査エージェント6種を評価し,すべてのシステムが推論集約検索に苦慮していることを確認した。
DR Tulu をバックボーンとし、BM25 と LLM ベースのレトリバー(ReasonIR と gte-Qwen2-7B-インストラクト)を代替検索ツールとして比較する。
意外なことに、BM25はキーワード指向のサブクエリを生成するため、LLMベースのリトリーバーを約30%上回っている。
性能向上のために,LLMを用いてメタデータやキーワードで文書を拡大するコーパスレベルのテスト時間スケーリングフレームワークを提案する。
これはそれぞれ、ショートフォームとオープンエンドの質問に対して8%と2%の利益をもたらす。
関連論文リスト
- BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - Exp4Fuse: A Rank Fusion Framework for Enhanced Sparse Retrieval using Large Language Model-based Query Expansion [0.0]
大規模言語モデル(LLM)は、クエリ拡張のための仮説文書を生成する可能性を示している。
スパースレトリバーの性能を向上させる新しい融合ランキングフレームワークExp4Fuseを導入する。
論文 参考訳(メタデータ) (2025-06-05T08:44:34Z) - R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation [11.890598082534577]
Retrieval augmented generation (RAG) は、検索者によって提供される外部文書で大規模言語モデル(LLM)を拡張するために、多くのシナリオで適用されてきた。
本稿では,R$2$AGを提案する。R$2$AGは,検索情報を検索用拡張生成に組み込む新しい拡張RAGフレームワークである。
論文 参考訳(メタデータ) (2024-06-19T06:19:48Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。