論文の概要: ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation
- arxiv url: http://arxiv.org/abs/2605.28293v1
- Date: Wed, 27 May 2026 10:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.983271
- Title: ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation
- Title(参考訳): ProRL:Rectified Policy Gradient Estimationによる積極的な勧告のための効果的な強化学習
- Authors: Hongru Hou, Tiehua Mei, Denghui Geng, Jinhui Huang, Ao Xu, Hengrui Chen, Jiaqing Liang, Deqing Yang,
- Abstract要約: Proactive Recommender Systems (PRSs) は,中間勧告の経路を生成することによって,ユーザの嗜好の目標項目へのシフトを誘導することを目的としている。
プロアクティブなレコメンデーションのための2つの新しいメカニズムを持つ有効RLフレームワークProRLを提案する。
実世界の3つのデータセットに対する実験により、ProRLは最先端のPSSよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 22.61175161826679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.
- Abstract(参考訳): Proactive Recommender Systems (PRSs) は,中間勧告の経路を生成することによって,ユーザの嗜好の目標項目へのシフトを誘導することを目的としている。
強化学習(Reinforcement Learning, RL)は、このようなシーケンシャルな意思決定タスクを最適化するための原則的なフレームワークを提供する。
しかし、政策勾配をPSSに適用すると、不十分な勾配推定が生じる。
1)経路レベルの報酬を正の平均でステップレベルの報酬に分解し,勾配に意味のある探索よりも経路拡張を優先させる長さ依存バイアスを生じさせ,(2)経路レベルの報酬全体を重み付けすることで分解構造を無視し,勾配のばらつきを生じさせる。
これら2つの欠陥を正すために,プロアクティブレコメンデーションのための2つの新しいメカニズムを持つ有効なRLフレームワークProRLを提案する。
第一に、ステップワイズ・リワード・センターリング(Stepwise Reward Centering)は、長さ依存バイアスを中和するために期待される報酬を抽出し、経路拡張が期待される勾配信号がゼロになることを保証する。
第二に、位置特化アドバンテージ推定は報酬分解構造を利用してステップ依存ベースラインを計算し、勾配分散を低減させる。
これらのメカニズムが組み合わさって、パスの品質を正確に目標とするポリシー勾配が生まれる。
実世界の3つのデータセットに対する実験により、ProRLは最先端のPSSよりも大幅に優れていることが示された。
私たちのコードはhttps://github.com/hongruhou89/ProRL.comで公開されています。
関連論文リスト
- Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training [11.136092421166097]
Agentic RAGは、外部知識を取り入れることで、大きな言語モデルを強化する。
現在のRLベースのトレーニング手法は、中間信号を捨てるスパース結果報酬に悩まされている。
本稿では,エージェントRAGトレーニングにパス中心の報酬形成を導入するフレームワークであるSearch-P1を提案する。
論文 参考訳(メタデータ) (2026-02-26T03:31:00Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Advantage Shaping as Surrogate Reward Maximization: Unifying Pass@K Policy Gradients [36.36267374509825]
既存の利点形成アルゴリズムは、サロゲート報酬を暗黙的に最適化していることを示す。
既存の利点形成法と新しい利点形成法の両方を導出するための簡単なレシピを提供する。
論文 参考訳(メタデータ) (2025-10-27T06:24:56Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。
DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。
また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。