論文の概要: Value Penalized Q-Learning for Recommender Systems
- arxiv url: http://arxiv.org/abs/2110.07923v1
- Date: Fri, 15 Oct 2021 08:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 12:33:25.854856
- Title: Value Penalized Q-Learning for Recommender Systems
- Title(参考訳): Recommender システムのQ-Learning
- Authors: Chengqian Gao, Ke Xu, Peilin Zhao
- Abstract要約: RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
- 参考スコア(独自算出の注目度): 30.704083806571074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling reinforcement learning (RL) to recommender systems (RS) is promising
since maximizing the expected cumulative rewards for RL agents meets the
objective of RS, i.e., improving customers' long-term satisfaction. A key
approach to this goal is offline RL, which aims to learn policies from logged
data. However, the high-dimensional action space and the non-stationary
dynamics in commercial RS intensify distributional shift issues, making it
challenging to apply offline RL methods to RS. To alleviate the action
distribution shift problem in extracting RL policy from static trajectories, we
propose Value Penalized Q-learning (VPQ), an uncertainty-based offline RL
algorithm. It penalizes the unstable Q-values in the regression target by
uncertainty-aware weights, without the need to estimate the behavior policy,
suitable for RS with a large number of items. We derive the penalty weights
from the variances across an ensemble of Q-functions. To alleviate
distributional shift issues at test time, we further introduce the critic
framework to integrate the proposed method with classic RS models. Extensive
experiments conducted on two real-world datasets show that the proposed method
could serve as a gain plugin for existing RS models.
- Abstract(参考訳): 推薦システム(RS)への強化学習(RL)のスケーリングは、RLエージェントの累積報酬の最大化がRSの目的、すなわち顧客の長期的な満足度の向上を目標としていることから、有望である。
この目標の重要なアプローチは、ログされたデータからポリシーを学ぶことを目的としたオフラインRLである。
しかし、高次元のアクション空間と商用rsにおける非定常ダイナミクスは分布シフト問題を強化し、rsにオフラインのrl法を適用することが困難になる。
静的軌跡からRLポリシーを抽出する際の行動分布シフト問題を緩和するために,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
不確かさを意識した重みによる回帰目標の不安定なQ値のペナルティを、多数のアイテムを持つRSに適した行動ポリシーを見積もる必要がない。
q-函数のアンサンブル上の分散からペナルティ重みを導出する。
テスト時の分散シフト問題を緩和するため,提案手法を古典RSモデルに統合するための批判的枠組みをさらに導入する。
2つの実世界のデータセットで広範な実験を行い、提案手法が既存のrsモデルのゲインプラグインとして機能することを示した。
関連論文リスト
- Robust Reinforcement Learning Objectives for Sequential Recommender
Systems [10.226091667719391]
注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。
近年, これらのモデルに強化学習(RL)を統合する研究が進められている。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペースの導入、十分な報酬信号を備えたデータセットの不足といった課題が提示される。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。