論文の概要: Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers
- arxiv url: http://arxiv.org/abs/2505.20128v1
- Date: Mon, 26 May 2025 15:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.568391
- Title: Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers
- Title(参考訳): エージェントサーチとして大規模言語モデルを活用する反復的自己インセンティブ化
- Authors: Zhengliang Shi, Lingyong Yan, Dawei Yin, Suzan Verberne, Maarten de Rijke, Zhaochun Ren,
- Abstract要約: 大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 74.17516978246152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely integrated into information retrieval to advance traditional techniques. However, effectively enabling LLMs to seek accurate knowledge in complex tasks remains a challenge due to the complexity of multi-hop queries as well as the irrelevant retrieved content. To address these limitations, we propose EXSEARCH, an agentic search framework, where the LLM learns to retrieve useful information as the reasoning unfolds through a self-incentivized process. At each step, the LLM decides what to retrieve (thinking), triggers an external retriever (search), and extracts fine-grained evidence (recording) to support next-step reasoning. To enable LLM with this capability, EXSEARCH adopts a Generalized Expectation-Maximization algorithm. In the E-step, the LLM generates multiple search trajectories and assigns an importance weight to each; the M-step trains the LLM on them with a re-weighted loss function. This creates a self-incentivized loop, where the LLM iteratively learns from its own generated data, progressively improving itself for search. We further theoretically analyze this training process, establishing convergence guarantees. Extensive experiments on four knowledge-intensive benchmarks show that EXSEARCH substantially outperforms baselines, e.g., +7.8% improvement on exact match score. Motivated by these promising results, we introduce EXSEARCH-Zoo, an extension that extends our method to broader scenarios, to facilitate future work.
- Abstract(参考訳): 大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
しかし,LLMが複雑なタスクにおいて正確な知識を求めるのを効果的に行うことは,マルチホップクエリの複雑化や,無関係な検索コンテンツのため,依然として課題である。
これらの制約に対処するため,LLM が自己インセンティブ付きプロセスを通じて有用な情報を取得することを学習するエージェント検索フレームワーク EXSEARCH を提案する。
それぞれのステップで、LCMは何を検索するか(思考)を決定し、外部レトリバー(探索)をトリガーし、次のステップの推論をサポートするためにきめ細かい証拠(記録)を抽出する。
この能力でLLMを有効にするため、EXSEARCHは一般化期待最大化アルゴリズムを採用している。
Eステップでは、LLMは複数の探索軌跡を生成し、それぞれに重要な重みを割り当て、MステップはLLMを再重み付き損失関数で訓練する。
これにより自己インセンティブ付きループが生成され、LLMは自身の生成されたデータから反復的に学習し、検索のために徐々に改善される。
さらに、このトレーニングプロセスを理論的に分析し、収束保証を確立する。
知識集約的な4つのベンチマークの大規模な実験により、EXSEARCHは、例えば、正確なマッチスコアの7.8%の改善など、ベースラインを大幅に上回っていることが示されている。
これらの有望な結果に触発され,将来的な作業を容易にするための拡張であるEXSEARCH-Zooを紹介した。
関連論文リスト
- StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization [14.931231544839687]
StepSearchは、ステップワイドなポリシー最適化手法でトレーニングされたLLMを検索するためのフレームワークである。
情報ゲインと冗長性に基づく、より豊かでより詳細な中間探索報酬とトークンレベルのプロセス監視で構成されている。
標準的なマルチホップQAベンチマークでは、グローバルリワードベースラインをはるかに上回り、3Bモデルと7Bモデルの11.2%と4.2%の絶対的な改善を達成した。
論文 参考訳(メタデータ) (2025-05-21T05:01:31Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。