論文の概要: Generative Slate Recommendation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.08632v2
- Date: Tue, 24 Jan 2023 10:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 15:14:21.152497
- Title: Generative Slate Recommendation with Reinforcement Learning
- Title(参考訳): 強化学習による生成スレート勧告
- Authors: Romain Deffayet, Thibaut Thonet, Jean-Michel Renders, Maarten de Rijke
- Abstract要約: 強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
- 参考スコア(独自算出の注目度): 49.75985313698214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has employed reinforcement learning (RL) algorithms to
optimize long-term user engagement in recommender systems, thereby avoiding
common pitfalls such as user boredom and filter bubbles. They capture the
sequential and interactive nature of recommendations, and thus offer a
principled way to deal with long-term rewards and avoid myopic behaviors.
However, RL approaches are intractable in the slate recommendation scenario -
where a list of items is recommended at each interaction turn - due to the
combinatorial action space. In that setting, an action corresponds to a slate
that may contain any combination of items.
While previous work has proposed well-chosen decompositions of actions so as
to ensure tractability, these rely on restrictive and sometimes unrealistic
assumptions. Instead, in this work we propose to encode slates in a continuous,
low-dimensional latent space learned by a variational auto-encoder. Then, the
RL agent selects continuous actions in this latent space, which are ultimately
decoded into the corresponding slates. By doing so, we are able to (i) relax
assumptions required by previous work, and (ii) improve the quality of the
action selection by modeling full slates instead of independent items, in
particular by enabling diversity. Our experiments performed on a wide array of
simulated environments confirm the effectiveness of our generative modeling of
slates over baselines in practical scenarios where the restrictive assumptions
underlying the baselines are lifted. Our findings suggest that representation
learning using generative models is a promising direction towards generalizable
RL-based slate recommendation.
- Abstract(参考訳): 最近の研究では、レコメンダシステムにおける長期ユーザエンゲージメントを最適化するために強化学習(rl)アルゴリズムを採用しており、ユーザの退屈さやフィルターバブルのような一般的な落とし穴を回避している。
彼らはレコメンデーションのシーケンシャルでインタラクティブな性質を捉え、長期的な報酬に対処し、筋電図的行動を避けるための原則的な方法を提供する。
しかしながら、RLアプローチは、組み合わせアクション空間のため、各相互作用ターンで項目のリストが推奨されるスレートレコメンデーションシナリオにおいて、難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
従来の研究では、トラクタビリティを確保するためにアクションを適切に分解することを提案したが、これらは制限的、時には非現実的な仮定に依存している。
そこで本研究では,変分オートエンコーダによって学習される連続的で低次元な潜在空間にスレートを符号化する手法を提案する。
そして、RLエージェントは、この潜伏空間における連続的な作用を選択し、最終的に対応するスレートにデコードされる。
そうすることで私たちは
(i)前回の作業に必要な仮定を緩和し、
(二)独立した項目の代わりにフルスレートをモデル化することにより行動選択の質を向上させる。
シミュレーション環境で行った実験では,ベースラインの基礎となる制約的な仮定が解除された場合のベースラインに対するスレート生成モデルの有効性を確認した。
以上より,生成モデルを用いた表現学習は,一般化された rl ベーススレートレコメンデーションへの有望な方向であることが示唆された。
関連論文リスト
- Causality-Enhanced Behavior Sequence Modeling in LLMs for Personalized Recommendation [47.29682938439268]
本稿では,ユーザ嗜好モデルを改善するために,CFT法を提案する。
モデル出力に対する行動系列の因果的影響を特定するために, 反ファクト推論を用いる。
実世界のデータセットの実験により、CFTは行動シーケンスモデリングを効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-10-30T08:41:13Z) - An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文 参考訳(メタデータ) (2024-08-15T09:26:26Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T13:56:46Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。