論文の概要: Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2602.23440v1
- Date: Thu, 26 Feb 2026 19:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.100013
- Title: Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning
- Title(参考訳): 検索強化推論のためのプロセス・リワードを用いた切り裂きステップレベルサンプリング
- Authors: Chris Samarinas, Haw-Shiuan Chang, Hamed Zamani,
- Abstract要約: 強化学習による検索エンジンの推論のための大規模言語モデルの訓練は、信用代行問題によって妨げられる。
2つの相補的なアイデアに基づいて構築されたフレームワークであるSLATEを提案する。
7つのQAベンチマークの実験では、SLATEがスパース・リワードとプロセス・リワードのベースラインを一貫して上回っていることが確認された。
- 参考スコア(独自算出の注目度): 32.295907409325615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training large language models to reason with search engines via reinforcement learning is hindered by a fundamental credit assignment problem: existing methods such as Search-R1 provide only a sparse outcome reward after an entire multi-step trajectory, making it infeasible to attribute success or failure to individual reasoning and retrieval decisions. Process-reward methods like StepSearch alleviate this by introducing step-level supervision, but rely on heuristic rewards such as TF-IDF overlap with gold documents, and still sample k complete trajectories per example, retaining high gradient variance. We propose SLATE, a framework built on two complementary ideas: (1) truncated step-level sampling, which generates k trajectories that share a common prefix and differ only at the next step, and (2) dense LLM-as-judge rewards, which replace heuristic scoring with a capable LLM evaluator that assesses the quality of each reasoning step, search query, and answer, providing richer and more reliable supervision. We theoretically prove that under the same dense reward structure, truncated sampling reduces the variance of advantage estimates by up to a factor of T compared to full-trajectory sampling for T-step trajectories, yielding lower-variance, better-targeted policy gradients. Experiments on seven QA benchmarks confirm that SLATE consistently outperforms both sparse-reward and process-reward baselines, with the largest gains on harder multi-hop tasks and smaller models.
- Abstract(参考訳): サーチ-R1のような既存の手法は、多段階の軌道全体を経て、スパースな結果の報酬しか提供せず、個々の推論や検索決定に成功または失敗する可能性がある。
StepSearchのようなプロセスリワードメソッドは、ステップレベルの監視を導入することでこれを緩和するが、TF-IDFのようなヒューリスティックな報酬を金のドキュメントと重複させ、サンプルの k 完全軌道をサンプリングし、高い勾配のばらつきを維持している。
本稿では,(1)共通接頭辞を共有し,次のステップでのみ異なる k トラジェクトリを生成する truncated step-level sample,(2) ヒューリスティックスコアを,各推論ステップ,検索クエリ,回答の質を評価する有能な LLM 評価器に置き換えた高密度 LLM-as-judge reward を提案する。
理論的には,同じ高密度報酬構造の下では,T段軌道に対する全軌道サンプリングと比較して,利得推定値の分散を最大T因子まで低減し,より低分散でより良い政策勾配が得られる。
7つのQAベンチマークの実験では、SLATEはスパース・リワードとプロセス・リワードのベースラインを一貫して上回り、より難しいマルチホップタスクとより小さなモデルで最大の利益を得ている。
関連論文リスト
- Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training [11.136092421166097]
Agentic RAGは、外部知識を取り入れることで、大きな言語モデルを強化する。
現在のRLベースのトレーニング手法は、中間信号を捨てるスパース結果報酬に悩まされている。
本稿では,エージェントRAGトレーニングにパス中心の報酬形成を導入するフレームワークであるSearch-P1を提案する。
論文 参考訳(メタデータ) (2026-02-26T03:31:00Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - STEP: Success-Rate-Aware Trajectory-Efficient Policy Optimization [23.48518286261969]
軌道レベルの最適化は、各軌道を単一のトレーニングサンプルとして扱う。
このアプローチは非効率であり、誤解を招く学習信号が得られる。
提案するSTEP(Success-rate-aware Trajectory-Efficient Policy Optimization)は,タスクごとの成功率に基づいてサンプリングを動的に割り当てるフレームワークである。
論文 参考訳(メタデータ) (2025-11-17T07:43:15Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Cog-Rethinker: Hierarchical Metacognitive Reinforcement Learning for LLM Reasoning [14.57256913655025]
LLM推論のための新しい階層的メタ認知的RLフレームワークであるCog-Rethinkerを提案する。
我々のCog-Rethinkerは主にRLトレーニングのロールアウト手順に焦点を当てています。
問題解決において人間の認識を活用することにより、ゼロ精度の問題をサブプロブレムに分解するようポリシーに促す。
論文 参考訳(メタデータ) (2025-10-13T08:16:21Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。