論文の概要: Credit-assigned Policy Gradient for Early Stage Retrieval in Two-stage Ranking
- arxiv url: http://arxiv.org/abs/2605.26385v1
- Date: Mon, 25 May 2026 23:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.503547
- Title: Credit-assigned Policy Gradient for Early Stage Retrieval in Two-stage Ranking
- Title(参考訳): 2段階ランク付けにおける早期検索のためのクレジット付政策グラディエント
- Authors: Haruka Kiyohara, Mihaela Curmei, Ariel Evnine, Shankar Kalyanaraman, Israel Nir, Ana-Roxana Pop, Nitzan Razin, Sarah Dean, Thorsten Joachims, Udi Weinsberg,
- Abstract要約: バニラ政策勾配 (V-PG) は, ばらつきの発散により, 実用化に関係した候補セットサイズには拡張性がない。
本稿では,対象項目が任意の候補集合に選択される確率に対して勾配を計算する,新しい"cedit-assigned"ポリシー勾配(CA-PG)を提案する。
- 参考スコア(独自算出の注目度): 21.993273074727906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale search, recommendation, and retrieval-augmented generation (RAG) systems typically employ a two-stage architecture: an early-stage ranker (ESR) generates a candidate set, which is subsequently re-ranked by a late-stage ranker (LSR). While there are many reinforcement learning (RL) methods for training the LSR, end-to-end training of the ESR has proven challenging. In particular, naive application of "vanilla" policy gradient (V-PG) is not scalable for candidate-set sizes relevant for practical use due to exploding variance. This issue arises because V-PG propagates the gradient to the joint probability of the candidate sets, ignoring the contribution of each specific item in the candidate set to the reward. To mitigate this issue, we propose a novel "credit-assigned" policy gradient (CA-PG), which computes gradients with respect to the probability that the target item is chosen in any candidate set, i.e. marginalizing over all candidate sets that contain it. Our theoretical analysis reveals that CA-PG significantly reduces the variance of V-PG by marginalizing over the specific composition of the candidate set, while preserving the ability to learn the correct ranking of items under a reasonably aligned LSR policy. Experiments on both synthetic and real-world data demonstrate that CA-PG improves the convergence speed and training stability for ESRs utilizing the canonical Plackett-Luce model, especially when the candidate-set size is large.
- Abstract(参考訳): 大規模検索、レコメンデーション、検索拡張生成(RAG)システムは通常、2段階アーキテクチャを使用する: アーリーステージローダ(ESR)は候補セットを生成し、その後、レイトステージローダ(LSR)によって再ランク付けされる。
LSRの訓練には多くの強化学習法(RL)があるが、ESRのエンドツーエンドの訓練は困難であることが証明されている。
特に、"Vanilla"ポリシー勾配(V-PG)の単純適用は、爆発的分散による実用性に関連する候補セットサイズには拡張性がない。
この問題は、V-PGが候補集合の結合確率の勾配を伝播し、各候補集合の報酬に対する各特定の項目の寄与を無視しているためである。
この問題を緩和するために、ターゲット項目が任意の候補集合に選択される確率、すなわち、それを含む全ての候補集合の辺縁化に関する勾配を計算する新しい「クレディ・アサイン」ポリシー勾配(CA-PG)を提案する。
理論的解析の結果,CA-PGは候補集合の具体的構成を極端に制限することにより,V-PGの分散を著しく低減し,合理的に整合したLSRポリシーの下で項目の正しいランク付けを学習する能力を保っていることが明らかとなった。
合成データと実世界のデータの両方の実験により、CA-PGは標準プラケット・ルーシモデルを用いてESRの収束速度と訓練安定性を向上することを示した。
関連論文リスト
- ShapE-GRPO: Shapley-Enhanced Reward Allocation for Multi-Candidate LLM Training [17.817168693366916]
既存の強化学習のポストトレーニングパラダイムは、通常、セット内のすべての候補に同じセットレベルのスカラー報酬を割り当てる。
これにより、貧弱な候補者が一人の強い仲間が生み出す高い報酬を解放するノイズの多い訓練信号が導き出され、その結果、準最適探索に繋がる。
セットレベルのユーティリティの置換不変性を活用することにより、協調ゲーム理論からシェープリー強化の定式化を導出し、セットレベルの報酬を粒度、候補固有の信号に分解する。
論文 参考訳(メタデータ) (2026-03-31T15:24:15Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。
エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。
1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。
本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T11:59:25Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。