論文の概要: Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation
- arxiv url: http://arxiv.org/abs/2012.02476v1
- Date: Fri, 4 Dec 2020 08:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:46:43.784583
- Title: Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation
- Title(参考訳): オフラインメタレベルモデルに基づくコールドスタート推薦のための強化学習手法
- Authors: Yanan Wang, Yong Ge, Li Li, Rui Chen, Tong Xu
- Abstract要約: 強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 27.17948754183511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown great promise in optimizing long-term
user interest in recommender systems. However, existing RL-based recommendation
methods need a large number of interactions for each user to learn a robust
recommendation policy. The challenge becomes more critical when recommending to
new users who have a limited number of interactions. To that end, in this
paper, we address the cold-start challenge in the RL-based recommender systems
by proposing a meta-level model-based reinforcement learning approach for fast
user adaptation. In our approach, we learn to infer each user's preference with
a user context variable that enables recommendation systems to better adapt to
new users with few interactions. To improve adaptation efficiency, we learn to
recover the user policy and reward from only a few interactions via an inverse
reinforcement learning method to assist a meta-level recommendation agent.
Moreover, we model the interaction relationship between the user model and
recommendation agent from an information-theoretic perspective. Empirical
results show the effectiveness of the proposed method when adapting to new
users with only a single interaction sequence. We further provide a theoretical
analysis of the recommendation performance bound.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、リコメンダシステムに対する長期的なユーザの関心を最適化する上で、非常に有望である。
しかしながら、既存のrlベースのレコメンデーションメソッドでは、堅牢なレコメンデーションポリシを学ぶために、各ユーザが多数のインタラクションを必要とする。
限られた数のインタラクションを持つ新規ユーザに推奨する場合には,この課題がより重要になります。
そこで本稿では,高速ユーザ適応のためのメタレベルモデルに基づく強化学習手法を提案することで,rlベースのレコメンダシステムにおけるコールドスタート課題を解決する。
提案手法では,ユーザの好みをユーザコンテキスト変数で推測することで,インタラクションの少ない新規ユーザに対して,レコメンデーションシステムによる適応性の向上を実現する。
適応効率を向上させるために,メタレベルのレコメンデーションエージェントを支援する逆強化学習手法を用いて,少数のインタラクションからユーザポリシと報酬を回復することを学ぶ。
さらに,情報理論的な観点から,ユーザモデルとレコメンデーションエージェントの相互作用関係をモデル化する。
実験の結果,1つのインタラクションシーケンスのみで新規ユーザに対応する場合,提案手法の有効性が示された。
さらに,推奨性能境界の理論的解析を行う。
関連論文リスト
- A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。
提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文 参考訳(メタデータ) (2024-05-03T04:34:36Z) - Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Editable User Profiles for Controllable Text Recommendation [66.00743968792275]
制御可能なテキストレコメンデーションのための新しい概念値ボトルネックモデル LACE を提案する。
LACEは、人間の読みやすい概念の簡潔なセットで各ユーザーを表現する。
ユーザ文書に基づいて概念のパーソナライズされた表現を学習する。
論文 参考訳(メタデータ) (2023-04-09T14:52:18Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Meta-Learning for Online Update of Recommender Systems [29.69934307878855]
MeLONは、双方向の柔軟性をサポートする新しいオンラインレコメンデータ更新戦略である。
MeLONは、リコメンデータが将来のアップデートのために最適な学習率を生成する方法を学ぶ。
論文 参考訳(メタデータ) (2022-03-19T16:27:30Z) - Learning to Learn a Cold-start Sequential Recommender [70.5692886883067]
コールドスタート勧告は、現代のオンラインアプリケーションにおいて緊急の問題である。
メタ学習に基づくコールドスタートシーケンシャルレコメンデーションフレームワークMetaCSRを提案する。
MetaCSRは、通常のユーザの行動から共通のパターンを学ぶ能力を持っている。
論文 参考訳(メタデータ) (2021-10-18T08:11:24Z) - User Tampering in Reinforcement Learning Recommender Systems [2.28438857884398]
我々は、強化学習(RL)ベースのレコメンデーションアルゴリズム -- 'ユーザ改ざん' -- で発生する、ユニークな安全性上の懸念を強調します。
ユーザタンパリング(英: user tampering)とは、RLベースのレコメンデータシステムが、長期的なユーザエンゲージメントを最大化するためのポリシーの一環として、その提案を通じてメディアユーザの意見を操作できる状況である。
論文 参考訳(メタデータ) (2021-09-09T07:53:23Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。