論文の概要: An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2408.08047v1
- Date: Thu, 15 Aug 2024 09:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:26:13.340454
- Title: An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation
- Title(参考訳): 強化学習に基づくシーケンスレコメンデーションのための効率的な継続的制御
- Authors: Jun Wang, Likang Wu, Qi Liu, Yu Yang,
- Abstract要約: 本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
- 参考スコア(独自算出の注目度): 14.506332665769746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential recommendation, where user preference is dynamically inferred from sequential historical behaviors, is a critical task in recommender systems (RSs). To further optimize long-term user engagement, offline reinforcement-learning-based RSs have become a mainstream technique as they provide an additional advantage in avoiding global explorations that may harm online users' experiences. However, previous studies mainly focus on discrete action and policy spaces, which might have difficulties in handling dramatically growing items efficiently. To mitigate this issue, in this paper, we aim to design an algorithmic framework applicable to continuous policies. To facilitate the control in the low-dimensional but dense user preference space, we propose an \underline{\textbf{E}}fficient \underline{\textbf{Co}}ntinuous \underline{\textbf{C}}ontrol framework (ECoC). Based on a statistically tested assumption, we first propose the novel unified action representation abstracted from normalized user and item spaces. Then, we develop the corresponding policy evaluation and policy improvement procedures. During this process, strategic exploration and directional control in terms of unified actions are carefully designed and crucial to final recommendation decisions. Moreover, beneficial from unified actions, the conservatism regularization for policies and value functions are combined and perfectly compatible with the continuous framework. The resulting dual regularization ensures the successful offline training of RL-based recommendation policies. Finally, we conduct extensive experiments to validate the effectiveness of our framework. The results show that compared to the discrete baselines, our ECoC is trained far more efficiently. Meanwhile, the final policies outperform baselines in both capturing the offline data and gaining long-term rewards.
- Abstract(参考訳): シーケンシャル・レコメンデーション(シーケンシャル・レコメンデーション)は、ユーザの嗜好がシーケンシャル・ヒストリカルな行動から動的に推測されるもので、レコメンダ・システム(RS)において重要な課題である。
長期のユーザエンゲージメントをさらに最適化するため、オフライン強化学習ベースのRSは、オンラインユーザエクスペリエンスを損なう可能性のあるグローバルな探索を避ける上で、さらなるアドバンテージを提供するため、主流のテクニックとなっている。
しかし、従来の研究は主に個別の行動と政策空間に焦点を合わせており、それは劇的に成長するアイテムを効率的に扱うのに困難である可能性がある。
本稿では,この問題を緩和するために,継続的ポリシーに適用可能なアルゴリズムフレームワークを設計することを目的とする。
低次元だが高密度なユーザ嗜好空間における制御を容易にするために,我々は,低次元かつ高密度なユーザ嗜好空間である \underline{\textbf{E}}fficient \underline{\textbf{Co}}ntinuous \underline{\textbf{C}}ontrol framework (ECoC) を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
そこで我々は,対応する政策評価・政策改善手順を開発する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
さらに、統一されたアクションによって、ポリシーとバリュー関数の保守的規則化が組み合わされ、継続的なフレームワークと完全に互換性がある。
その結果、二重正規化により、RLベースのレコメンデーションポリシーのオフライントレーニングが成功する。
最後に,フレームワークの有効性を検証するための広範な実験を行った。
その結果、離散ベースラインと比較して、ECoCははるかに効率的に訓練されていることがわかった。
一方、最終的なポリシーは、オフラインデータのキャプチャと長期的な報酬の両方において、ベースラインを上回ります。
関連論文リスト
- Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning [7.07623669995408]
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的アクター批判(iAC)フレームワークを提案する。
学習ポリシーは指数的減衰感度(EDS)特性を介して学習したアクターパラメータの準最適性に頑健であることを示す。
提案手法を実世界の2つのアプリケーションで検証し, 最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-08-27T19:04:32Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。