論文の概要: S^3-R1: Learning to Retrieve and Answer Step-by-Step with Synthetic Data
- arxiv url: http://arxiv.org/abs/2605.01248v1
- Date: Sat, 02 May 2026 05:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.666332
- Title: S^3-R1: Learning to Retrieve and Answer Step-by-Step with Synthetic Data
- Title(参考訳): S^3-R1:合成データによるステップ・バイ・ステップの検索と解答の学習
- Authors: Harsh Goel, Akhil Udathu, Susmija Jabireddy, Pradnesh Kalkar, Atharva Parulekar,
- Abstract要約: S3-R1 (Synthetic data and stabilized Search R1) は、より高密度な学習信号とデータ中心のアプローチを結合するフレームワークである。
まず、既存の文書から多様なマルチホップ質問を導き出す合成生成とパイプラインを開発する。
次に、この拡張トレーニングセットを、中間探索品質と正解度の両方を評価する報奨構造と組み合わせる。
- 参考スコア(独自算出の注目度): 2.003941363902692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) post-training has enabled newer capabilities in models, such as agentic tool-use for search. However, these models struggle primarily due to limitations with sparse outcome-based rewards and a lack of training data that encapsulates questions of differing hardness, which results in models not performing deeper searches with tools to collect evidence for question-answering. To address these limitations, we introduce S^3-R1 (Synthetic data and stabilized Search R1), a framework that couples a data-centric approach with denser learning signals. We first develop a synthetic generation and curation pipeline that programmatically derives diverse, multi-hop questions from existing documents. This pipeline incorporates a retrieval-based verification step to specifically isolate questions of intermediate difficulty. We then pair this expanded training set with a reward structure that evaluates both intermediate search quality and the correctness of the final answer. This setup directly mitigates the credit assignment problems inherent to sparse rewards. Our evaluations show that S^3-R1 outperforms existing baselines by learning more effective search and synthesis strategies, yielding up to a 10% improvement in robust generalization on out-of-domain datasets.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、エージェントツールによる検索など、モデルにおける新たな機能を実現する。
しかし、これらのモデルは、粗末な結果に基づく報酬の制限と、異なる硬さの疑問をカプセル化する訓練データの不足により、主に苦戦している。
これらの制約に対処するため,S^3-R1(Synthetic data and stabled Search R1)を導入する。
まず、既存の文書から多様なマルチホップ質問をプログラム的に導き出す合成生成とキュレーションパイプラインを開発する。
このパイプラインは、中間難問を具体的に分離するために、検索ベースの検証ステップを組み込んでいる。
次に、この拡張トレーニングセットを、中間探索品質と最終回答の正しさの両方を評価する報奨構造と組み合わせる。
この設定は、スパース報酬に固有のクレジット代入問題を直接緩和する。
評価の結果、S^3-R1はより効率的な探索・合成戦略を学習することで既存のベースラインよりも優れており、ドメイン外のデータセット上でのロバストな一般化が最大10%向上していることがわかった。
関連論文リスト
- CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search [51.911048955965136]
CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。
この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
論文 参考訳(メタデータ) (2026-04-19T17:48:17Z) - OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models [27.82040547996176]
OThink-SRR1は、強化学習を通じてトレーニングされた反復的なサーチ-リファイン-推論プロセスで大きなモデルを強化するフレームワークである。
その中核となるRefineステージは、回収された文書を推論する前に簡潔で関連する事実に蒸留する。
4つのマルチホップQAベンチマーク実験により,提案手法はより少ない検索ステップとトークンを用いながら,強いベースラインよりも優れた精度が得られることが示された。
論文 参考訳(メタデータ) (2026-03-27T03:06:29Z) - BMGQ: A Bottom-up Method for Generating Complex Multi-hop Reasoning Questions from Semi-structured Data [8.52473384574856]
本稿では,半構造化知識ソースから高難易度,訓練可能なマルチホップ質問を自動生成するフレームワークを提案する。
このシステムは、自然言語推論(NLI)に基づく関係型付けと多様性を意識した拡張を通じて、多様な、論理的にラベル付けされたエビデンスクラスタを成長させる。
論文 参考訳(メタデータ) (2025-10-28T07:43:15Z) - SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation [10.764970149373845]
我々は,厳格な制約をソフトガイダンスのパラダイムに置き換える,新しいRLフレームワークであるSoftPipeを紹介した。
我々は、SoftPipeがパイプラインの品質を最大13.9%改善し、2.8$times$既存の方法よりも高速な収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:43:22Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - O1 Embedder: Let Retrievers Think Before Action [28.583031173137428]
我々は,対象文書の検索に先立って,入力クエリに有用な思考を生成するO1 Embedderを提案する。
私たちのアプローチは、12の一般的なデータセットで大幅に改善される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化性を強調し、次世代IR基盤モデルの開発への道を開いた。
論文 参考訳(メタデータ) (2025-02-11T13:48:10Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。