論文の概要: Generative Slate Recommendation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.08632v2
- Date: Tue, 24 Jan 2023 10:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 15:14:21.152497
- Title: Generative Slate Recommendation with Reinforcement Learning
- Title(参考訳): 強化学習による生成スレート勧告
- Authors: Romain Deffayet, Thibaut Thonet, Jean-Michel Renders, Maarten de Rijke
- Abstract要約: 強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
- 参考スコア(独自算出の注目度): 49.75985313698214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has employed reinforcement learning (RL) algorithms to
optimize long-term user engagement in recommender systems, thereby avoiding
common pitfalls such as user boredom and filter bubbles. They capture the
sequential and interactive nature of recommendations, and thus offer a
principled way to deal with long-term rewards and avoid myopic behaviors.
However, RL approaches are intractable in the slate recommendation scenario -
where a list of items is recommended at each interaction turn - due to the
combinatorial action space. In that setting, an action corresponds to a slate
that may contain any combination of items.
While previous work has proposed well-chosen decompositions of actions so as
to ensure tractability, these rely on restrictive and sometimes unrealistic
assumptions. Instead, in this work we propose to encode slates in a continuous,
low-dimensional latent space learned by a variational auto-encoder. Then, the
RL agent selects continuous actions in this latent space, which are ultimately
decoded into the corresponding slates. By doing so, we are able to (i) relax
assumptions required by previous work, and (ii) improve the quality of the
action selection by modeling full slates instead of independent items, in
particular by enabling diversity. Our experiments performed on a wide array of
simulated environments confirm the effectiveness of our generative modeling of
slates over baselines in practical scenarios where the restrictive assumptions
underlying the baselines are lifted. Our findings suggest that representation
learning using generative models is a promising direction towards generalizable
RL-based slate recommendation.
- Abstract(参考訳): 最近の研究では、レコメンダシステムにおける長期ユーザエンゲージメントを最適化するために強化学習(rl)アルゴリズムを採用しており、ユーザの退屈さやフィルターバブルのような一般的な落とし穴を回避している。
彼らはレコメンデーションのシーケンシャルでインタラクティブな性質を捉え、長期的な報酬に対処し、筋電図的行動を避けるための原則的な方法を提供する。
しかしながら、RLアプローチは、組み合わせアクション空間のため、各相互作用ターンで項目のリストが推奨されるスレートレコメンデーションシナリオにおいて、難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
従来の研究では、トラクタビリティを確保するためにアクションを適切に分解することを提案したが、これらは制限的、時には非現実的な仮定に依存している。
そこで本研究では,変分オートエンコーダによって学習される連続的で低次元な潜在空間にスレートを符号化する手法を提案する。
そして、RLエージェントは、この潜伏空間における連続的な作用を選択し、最終的に対応するスレートにデコードされる。
そうすることで私たちは
(i)前回の作業に必要な仮定を緩和し、
(二)独立した項目の代わりにフルスレートをモデル化することにより行動選択の質を向上させる。
シミュレーション環境で行った実験では,ベースラインの基礎となる制約的な仮定が解除された場合のベースラインに対するスレート生成モデルの有効性を確認した。
以上より,生成モデルを用いた表現学習は,一般化された rl ベーススレートレコメンデーションへの有望な方向であることが示唆された。
関連論文リスト
- Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T13:56:46Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。