論文の概要: Batch-Constrained Distributional Reinforcement Learning for
Session-based Recommendation
- arxiv url: http://arxiv.org/abs/2012.08984v1
- Date: Wed, 16 Dec 2020 14:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 02:47:46.164675
- Title: Batch-Constrained Distributional Reinforcement Learning for
Session-based Recommendation
- Title(参考訳): セッションベースレコメンデーションのためのバッチ制約分布強化学習
- Authors: Diksha Garg, Priyanka Gupta, Pankaj Malhotra, Lovekesh Vig, Gautam
Shroff
- Abstract要約: セッションベースのレコメンデーションに対する既存の深層強化学習アプローチのほとんどは、実ユーザとのコストのかかるオンラインインタラクションに依存している。
私達は純粋なバッチまたはオフラインの設定、すなわち焦点方針に焦点を合わせます。
オフラインの履歴対話ログからのポリシー。
RL4Recは行動方針と強い人気を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 24.31234966953844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing deep reinforcement learning (RL) approaches for
session-based recommendations either rely on costly online interactions with
real users, or rely on potentially biased rule-based or data-driven
user-behavior models for learning. In this work, we instead focus on learning
recommendation policies in the pure batch or offline setting, i.e. learning
policies solely from offline historical interaction logs or batch data
generated from an unknown and sub-optimal behavior policy, without further
access to data from the real-world or user-behavior models. We propose BCD4Rec:
Batch-Constrained Distributional RL for Session-based Recommendations. BCD4Rec
builds upon the recent advances in batch (offline) RL and distributional RL to
learn from offline logs while dealing with the intrinsically stochastic nature
of rewards from the users due to varied latent interest preferences
(environments). We demonstrate that BCD4Rec significantly improves upon the
behavior policy as well as strong RL and non-RL baselines in the batch setting
in terms of standard performance metrics like Click Through Rates or Buy Rates.
Other useful properties of BCD4Rec include: i. recommending items from the
correct latent categories indicating better value estimates despite large
action space (of the order of number of items), and ii. overcoming popularity
bias in clicked or bought items typically present in the offline logs.
- Abstract(参考訳): セッションベースのレコメンデーションのための既存の深層強化学習(rl)アプローチのほとんどは、実際のユーザとの高価なオンラインインタラクションに依存するか、あるいは潜在的にバイアスのあるルールベースまたはデータ駆動の学習モデルに依存している。
この作業では、代わりに、純粋なバッチまたはオフライン設定、すなわち、レコメンデーションポリシーの学習にフォーカスします。
学習ポリシは、オフラインの履歴インタラクションログや、未知で最適でない動作ポリシから生成されたバッチデータのみから、現実世界やユーザビヘイビアモデルからのデータにアクセスせずに取得する。
BCD4Rec: Batch-Constrained Distributional RL for Session-based Recommendationsを提案する。
BCD4Recは、オフラインログから学習するためのバッチ(オフライン)RLと分散RLの最近の進歩の上に構築されている。
我々は,BCD4Recが,Click Through Rates や Buy Rates といった標準的なパフォーマンス指標を用いて,バッチ設定における強力なRLおよび非RLベースラインと同様に,行動ポリシーを大幅に改善することを示した。
bcd4recの他の有用な特性としては: i. 大きなアクションスペース(アイテム数順)にもかかわらず、正しい潜在カテゴリからの項目を推奨する。
クリックまたは購入アイテムの人気バイアスを克服する 通常はオフラインログに存在する
関連論文リスト
- Beyond Expected Return: Accounting for Policy Reproducibility when
Evaluating Reinforcement Learning Algorithms [9.649114720478872]
強化学習(Reinforcement Learning, RL)における多くの応用は、環境にノイズオリティが存在する。
これらの不確実性は、ひとつのロールアウトから別のロールアウトまで、まったく同じポリシーを別々に実行します。
RL の一般的な評価手順は、その分布の拡散を考慮しない期待された戻り値のみを用いて、連続した戻り値分布を要約する。
我々の研究は、この拡散をポリシーとして定義している: 何度もロールアウトするときに同様のパフォーマンスを得るポリシーの能力は、いくつかの現実世界のアプリケーションにおいて重要な特性である。
論文 参考訳(メタデータ) (2023-12-12T11:22:31Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。