論文の概要: ZeroSearch: Incentivize the Search Capability of LLMs without Searching
- arxiv url: http://arxiv.org/abs/2505.04588v2
- Date: Fri, 16 May 2025 13:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.160424
- Title: ZeroSearch: Incentivize the Search Capability of LLMs without Searching
- Title(参考訳): ZeroSearch: LLMの検索機能を検索なしでインセンティブ化する
- Authors: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Yan Zhang, Fei Huang, Jingren Zhou,
- Abstract要約: 我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
- 参考スコア(独自算出の注目度): 69.55482019211597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a novel RL framework that incentivizes the capabilities of LLMs to use a real search engine with simulated searches during training. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both useful and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論と生成能力を高めるためには,効果的な情報探索が不可欠である。
近年,実環境下でのライブ検索エンジンとの対話により,LLMの検索能力を向上させるための強化学習(RL)について検討している。
これらの手法は有望な結果を示す一方で,(1) 制御不能な文書品質: 検索エンジンが返却する文書の品質は予測不能であり,学習プロセスにノイズや不安定さをもたらすことが多い。
2) 禁止性の高いAPIコスト: RLトレーニングには頻繁なロールアウトが必要で、数十万の検索要求が伴う可能性がある。
これらの課題に対処するために、ZeroSearchを紹介した。ZeroSearchは、LLMがトレーニング中にシミュレートされた検索で実際の検索エンジンを使用する能力にインセンティブを与える新しいRLフレームワークである。
我々のアプローチは、軽量な教師付き微調整から始まり、LLMを検索モジュールに変換し、クエリに応答して有用な文書とノイズの両方を生成する。
RLトレーニング中、我々はカリキュラムベースのロールアウト戦略を採用し、生成した文書の品質を漸進的に劣化させ、ますます困難な検索シナリオに公開することによって、モデルの推論能力を徐々に引き出す。
大規模な実験により、ZeroSearchは3B LLMを検索モジュールとして使用することで、LLMの検索能力を効果的にインセンティブすることを示した。
注目すべきは、7B検索モジュールが実際の検索エンジンに匹敵する性能を達成し、14B検索モジュールがそれを超えることだ。
さらに、様々なパラメータサイズのベースモデルと命令調整モデルの両方でよく一般化され、幅広いRLアルゴリズムと互換性がある。
関連論文リスト
- MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [37.183397387416065]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - When Search Engine Services meet Large Language Models: Visions and Challenges [53.32948540004658]
本稿では,大規模言語モデルと検索エンジンの統合が,両者の相互に利益をもたらすかどうかを詳細に検討する。
LLM(Search4LLM)の改良と,LLM(LLM4Search)を用いた検索エンジン機能の向上という,2つの主要な領域に注目した。
論文 参考訳(メタデータ) (2024-06-28T03:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。