論文の概要: PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.09287v1
- Date: Sun, 10 May 2026 03:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.16875
- Title: PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning
- Title(参考訳): PiCA: 検索エンジン強化学習のためのPivot-based Credit Assignment
- Authors: Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li,
- Abstract要約: 大言語モデル(LLM)に基づく検索エージェントは,知識集約型タスクの性能を大幅に向上させた。
既存の手法は、長期信用割り当てにおいて重要な課題に直面する。
累積探索の逐次過程として探索軌道を再構成するPivot-Based Credit Assignment (PiCA)を提案する。
- 参考スコア(独自算出の注目度): 11.926589875842359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based search agents trained with reinforcement learning (RL) have significantly improved the performance of knowledge-intensive tasks. However, existing methods encounter critical challenges in long-horizon credit assignment: (i) Reward Sparsity, where models receive only outcome feedback without step-level guidance to differentiate action quality; (ii) Isolated Credit, where credit is assigned to steps independently, failing to capture sequential dependencies; and (iii) Distributional Shift, where rewards are estimated on templates that deviate from the model's natural generative distribution. To address these issues, we propose Pivot-Based Credit Assignment (PiCA), a novel step reward mechanism that reformulates the search trajectory as a sequential process of cumulative search progress. Unlike prior isolated step rewards, PiCA defines process rewards as success probabilities dependent on the historical context based on Potential-Based Reward Shaping (PBRS). This approach identifies pivot steps, which comprise target golden sub-queries and sub-answers derived from historical trajectories, as information peaks that significantly boost the likelihood of a correct final answer. By anchoring these step rewards to the final task objective, PiCA provides dense, pivot-aware and trajectory-dependent guidance while maintaining distributional consistency. Extensive experiments show that PiCA outperforms existing strong baselines across seven knowledge-intensive QA benchmarks, achieving 15.2% and 2.2% improvements for 3B and 7B models. The consistent performance gains across various models show PiCA's robust generalization. The code is available at https://github.com/novdream/PiCA.
- Abstract(参考訳): 強化学習(RL)で訓練されたLarge Language Model (LLM)ベースの検索エージェントは,知識集約型タスクの性能を大幅に向上させた。
しかし、既存の手法は、長期信用割り当てにおいて重大な課題に直面している。
一 モデルが行動品質を区別するための段階的なガイダンスなしで結果フィードバックのみを受ける場合
(ii)分離債権、個別のステップにクレジットが割り当てられ、シーケンシャルな依存関係の取得に失敗した場合
(III)モデルの自然な生成分布から逸脱したテンプレートから報酬を推定する分布シフト。
これらの課題に対処するため,累積探索の逐次過程として探索軌道を再構成する新しいステップ報酬機構であるPivot-Based Credit Assignment (PiCA)を提案する。
以前の独立したステップ報酬とは異なり、PiCAはプロセス報酬を、可能性ベースのリワードシェイピング(PBRS)に基づく歴史的文脈に依存する成功確率として定義している。
提案手法では, 対象とするゴールデンサブクエリと, 過去のトラジェクトリーから派生したサブアンサーから構成されるピボットステップを, 正解の可能性を大幅に向上させる情報ピークとして同定する。
これらのステップ報酬を最終タスク目標に固定することで、PiCAは分布の整合性を維持しながら、密集度、ピボットアウェア、軌跡に依存したガイダンスを提供する。
大規模な実験により、PiCAは7つの知識集約型QAベンチマークで既存の強力なベースラインよりも優れており、3Bモデルと7Bモデルの15.2%と2.2%の改善が達成されている。
様々なモデルにおける一貫した性能向上は、PiCAの堅牢な一般化を示している。
コードはhttps://github.com/novdream/PiCA.comで公開されている。
関連論文リスト
- HISR: Hindsight Information Modulated Segmental Process Rewards For Multi-turn Agentic Reinforcement Learning [47.756127177035246]
本稿では,Hendsight Information を利用したセグメンショナル・プロセス・リワードの修正手法を提案する。
具体的には、タスクの各サブゴールに対する報酬を割り当てるために、セグメントレベルプロセスRMが提示される。
軌跡における重要なセグメントを強調するために,軌跡結果の把握後,ある動作を行うことの好みを反映した後視モデルが考案された。
論文 参考訳(メタデータ) (2026-03-19T09:42:05Z) - Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning [32.295907409325615]
強化学習による検索エンジンの推論のための大規模言語モデルの訓練は、信用代行問題によって妨げられる。
2つの相補的なアイデアに基づいて構築されたフレームワークであるSLATEを提案する。
7つのQAベンチマークの実験では、SLATEがスパース・リワードとプロセス・リワードのベースラインを一貫して上回っていることが確認された。
論文 参考訳(メタデータ) (2026-02-26T19:05:40Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。