論文の概要: Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?
- arxiv url: http://arxiv.org/abs/2605.10848v1
- Date: Mon, 11 May 2026 16:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.015649
- Title: Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?
- Title(参考訳): Pi-Seriniによるエージェント検索の再考:語彙検索は十分か?
- Authors: Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin,
- Abstract要約: 本稿では,文書の検索,閲覧,読取を行う3つのツールを備えた検索エージェントであるPi-Seriniを紹介する。
以上の結果から,BrowseComp-Plusでは,検索深度を十分に設定した語彙レトリバーが,より有能なLLMと組み合わせることで,効果的な深層学習を支援することができることがわかった。
- 参考スコア(独自算出の注目度): 44.97027502229472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Does a lexical retriever suffice as large language models (LLMs) become more capable in an agentic loop? This question naturally arises when building deep research systems. We revisit it by pairing BM25 with frontier LLMs that have better reasoning and tool-use abilities. To support researchers asking the same question, we introduce Pi-Serini, a search agent equipped with three tools for retrieving, browsing, and reading documents. Our results show that, on BrowseComp-Plus, a well-configured lexical retriever with sufficient retrieval depth can support effective deep research when paired with more capable LLMs. Specifically, Pi-Serini with gpt-5.5 achieves 83.1% answer accuracy and 94.7% surfaced evidence recall, outperforming released search agents that use dense retrievers. Controlled ablations further show that BM25 tuning improves answer accuracy by 18.0% and surfaced evidence recall by 11.1% over the default BM25 setting, while increasing retrieval depth further improves surfaced evidence recall by 25.3% over the shallow-retrieval setting. Source code is available at https://github.com/justram/pi-serini.
- Abstract(参考訳): 大規模言語モデル(LLM)がエージェントループでより有効になるにつれて、語彙レトリバーは十分か?
この問題は、ディープリサーチシステムを構築する際に自然に発生する。
BM25 とフロンティア LLM を組み合わせて再検討する。
そこで本研究では,文書の検索,閲覧,読解を行う3つのツールを備えた検索エージェントであるPi-Seriniを紹介する。
以上の結果から,BrowseComp-Plusでは,検索深度を十分に設定した語彙レトリバーが,より有能なLLMと組み合わせることで,効果的な深層学習を支援することができることがわかった。
具体的には、gpt-5.5 の Pi-Serini は83.1% の回答精度と94.7% の証拠リコールを達成し、より密集した検索エージェントよりも優れている。
制御された改善により、BM25のチューニングにより解答精度が18.0%向上し、デフォルトのBM25設定では11.1%向上し、検索深度は浅い検索条件では25.3%向上した。
ソースコードはhttps://github.com/justram/pi-serini.comで入手できる。
関連論文リスト
- SAGE: Benchmarking and Improving Retrieval for Deep Research Agents [60.53966065867568]
SAGEは4つの科学領域にわたる1200のクエリからなる科学文献検索のためのベンチマークであり、20万の論文検索コーパスを備える。
6つのディープ・リサーチ・エージェントを評価し,全てのシステムが推論集約的な検索に苦しむことを発見した。
BM25は、既存のエージェントがキーワード指向のサブクエリを生成するため、LLMベースのレトリバーを約30%上回っている。
論文 参考訳(メタデータ) (2026-02-05T18:25:24Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking [3.1125398490785217]
InsertRankはLLMベースのリランカで、リランク中のBM25スコアなどの語彙信号を活用して、検索性能をさらに向上する。
Deepseek-R1では、InsertRankはBRIGHTベンチマークで37.5点、R2MEDベンチマークで51.1点を獲得し、以前の手法を上回りました。
論文 参考訳(メタデータ) (2025-06-17T01:04:45Z) - DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning [44.806321084404324]
DeepRetrievalは強化学習(RL)アプローチで、教師付きデータなしで試行錯誤によるクエリ生成のためにLLMをトレーニングする。
検索指標を報奨として,検索性能を最大化するクエリを生成する。
論文 参考訳(メタデータ) (2025-02-28T22:16:42Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。