論文の概要: StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.15107v1
- Date: Wed, 21 May 2025 05:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.873989
- Title: StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization
- Title(参考訳): StepSearch: ステップワイズによるLLM検索機能の実現
- Authors: Ziliang Wang, Xuhui Zheng, Kang An, Cijun Ouyang, Jialu Cai, Yuhang Wang, Yichao Wu,
- Abstract要約: ステップワイズ・ポリシー最適化手法を用いて学習したLCMを検索するためのフレームワークであるStepSearchを紹介する。
情報ゲインと冗長性に基づく、より豊かでより詳細な中間探索報酬とトークンレベルのプロセス監視で構成されている。
標準的なマルチホップQAベンチマークでは、グローバルリワードベースラインをはるかに上回り、3Bモデルと7Bモデルの11.2%と4.2%の絶対的な改善を達成した。
- 参考スコア(独自算出の注目度): 14.931231544839687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient multi-hop reasoning requires Large Language Models (LLMs) based agents to acquire high-value external knowledge iteratively. Previous work has explored reinforcement learning (RL) to train LLMs to perform search-based document retrieval, achieving notable improvements in QA performance, but underperform on complex, multi-hop QA resulting from the sparse rewards from global signal only. To address this gap in existing research, we introduce StepSearch, a framework for search LLMs that trained with step-wise proximal policy optimization method. It consists of richer and more detailed intermediate search rewards and token-level process supervision based on information gain and redundancy penalties to better guide each search step. We constructed a fine-grained question-answering dataset containing sub-question-level search trajectories based on open source datasets through a set of data pipeline method. On standard multi-hop QA benchmarks, it significantly outperforms global-reward baselines, achieving 11.2% and 4.2% absolute improvements for 3B and 7B models over various search with RL baselines using only 19k training data, demonstrating the effectiveness of fine-grained, stepwise supervision in optimizing deep search LLMs. Our implementation is publicly available at https://github.com/zxh20001117/StepSearch.
- Abstract(参考訳): 効率的なマルチホップ推論は、高価値な外部知識を反復的に取得するために、LLM(Large Language Models)ベースのエージェントを必要とする。
従来,LLMを学習して検索に基づく文書検索を行うための強化学習(RL)について検討されてきた。
既存の研究におけるこのギャップを解決するために,ステップワイズ・ポリシー最適化法を用いて学習したLLMを探索するフレームワークであるStepSearchを紹介した。
より豊かで詳細な中間検索報酬と、情報取得と冗長性に基づくトークンレベルのプロセス監督によって構成され、各検索ステップをガイドする。
我々は,一連のデータパイプライン手法を用いて,オープンソースデータセットに基づくサブクェクションレベルの探索トラジェクトリを含む,きめ細かい問合せデータセットを構築した。
標準的なマルチホップQAベンチマークでは、グローバルリワードベースラインをはるかに上回り、19kのトレーニングデータのみを使用してRLベースラインを使用した様々なサーチで3Bモデルと7Bモデルに対して11.2%と4.2%の絶対的な改善を達成し、ディープサーチLLMの最適化におけるきめ細かい段階的な監視の有効性を示した。
私たちの実装はhttps://github.com/zxh20001117/StepSearch.comで公開されています。
関連論文リスト
- ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。