論文の概要: s3: You Don't Need That Much Data to Train a Search Agent via RL
- arxiv url: http://arxiv.org/abs/2505.14146v1
- Date: Tue, 20 May 2025 09:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.042943
- Title: s3: You Don't Need That Much Data to Train a Search Agent via RL
- Title(参考訳): s3:RLを介して検索エージェントをトレーニングするのに、そんなに多くのデータを必要としない
- Authors: Pengcheng Jiang, Xueqiang Xu, Jiacheng Lin, Jinfeng Xiao, Zifeng Wang, Jimeng Sun, Jiawei Han,
- Abstract要約: Retrieval-augmented Generation (RAG)システムでは、大規模言語モデル(LLM)が推論中に外部知識にアクセスできるようになる。
本稿では,検索者をジェネレータから切り離し,Gain Beyond RAG報酬を用いて検索者を訓練する,軽量でモデルに依存しないフレームワークであるs3を提案する。
- 参考スコア(独自算出の注目度): 41.21029905607559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems empower large language models (LLMs) to access external knowledge during inference. Recent advances have enabled LLMs to act as search agents via reinforcement learning (RL), improving information acquisition through multi-turn interactions with retrieval engines. However, existing approaches either optimize retrieval using search-only metrics (e.g., NDCG) that ignore downstream utility or fine-tune the entire LLM to jointly reason and retrieve-entangling retrieval with generation and limiting the real search utility and compatibility with frozen or proprietary models. In this work, we propose s3, a lightweight, model-agnostic framework that decouples the searcher from the generator and trains the searcher using a Gain Beyond RAG reward: the improvement in generation accuracy over naive RAG. s3 requires only 2.4k training samples to outperform baselines trained on over 70x more data, consistently delivering stronger downstream performance across six general QA and five medical QA benchmarks.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)システムでは、大規模言語モデル(LLM)が推論中に外部知識にアクセスできるようになる。
近年の進歩により、LLMは強化学習(RL)を介して検索エージェントとして機能し、検索エンジンとのマルチターンインタラクションによる情報取得を改善している。
しかし、既存のアプローチでは、下流ユーティリティを無視した検索専用メトリクス(例えばNDCG)を使用した検索を最適化するか、LLM全体を微調整して、生成と実際の検索ユーティリティとフリーズまたはプロプライエタリなモデルとの互換性の制限を共同で行う。
本研究では,探索者をジェネレータから切り離し,Gain Beyond RAG報酬を用いて探索者を訓練する,軽量でモデルに依存しないフレームワークであるs3を提案する。
s3は、70倍以上のデータでトレーニングされたベースラインを上回り、6つの一般的なQAと5つの医学的QAベンチマークのダウンストリームのパフォーマンスを継続的に向上させるために、2.4kのトレーニングサンプルしか必要としない。
関連論文リスト
- ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。