論文の概要: Representation Learning in Low-rank Slate-based Recommender Systems
- arxiv url: http://arxiv.org/abs/2309.08622v2
- Date: Tue, 19 Sep 2023 03:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:40:29.592336
- Title: Representation Learning in Low-rank Slate-based Recommender Systems
- Title(参考訳): 低ランクスレート型レコメンダシステムにおける表現学習
- Authors: Yijia Dai, Wen Sun
- Abstract要約: 低ランクマルコフ決定プロセス(MDP)を用いたオンラインRL問題として扱うために,標準スレートレコメンデーション設定を用いたサンプル効率表現学習アルゴリズムを提案する。
また,提案手法を用いて,提案手法を用いて推薦者シミュレーション環境を構築する。
- 参考スコア(独自算出の注目度): 9.550552949693566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) in recommendation systems offers the potential to
optimize recommendations for long-term user engagement. However, the
environment often involves large state and action spaces, which makes it hard
to efficiently learn and explore. In this work, we propose a sample-efficient
representation learning algorithm, using the standard slate recommendation
setup, to treat this as an online RL problem with low-rank Markov decision
processes (MDPs). We also construct the recommender simulation environment with
the proposed setup and sampling method.
- Abstract(参考訳): 推薦システムにおける強化学習(RL)は、長期的なユーザエンゲージメントのための推奨を最適化する能力を提供する。
しかし、環境はしばしば大きな状態と行動空間を伴い、効率的に学び、探索することは困難である。
本研究では,標準スレートレコメンデーション設定を用いて,これを低ランクマルコフ決定プロセス(MDP)を用いたオンラインRL問題として扱うために,サンプル効率のよい表現学習アルゴリズムを提案する。
また,提案手法を用いて,提案手法を用いて推薦者シミュレーション環境を構築する。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Incorporate LLMs with Influential Recommender System [34.5820082133773]
プロアクティブレコメンデーションシステムは、ターゲットアイテムに対するユーザの関心を導くために、一連のアイテムを推奨します。
既存のメソッドは、ユーザが楽しむであろうアイテムで構成された一貫性のある影響パスを構築するのに苦労しています。
LLM-based Influence Path Planning (LLM-IPP) という新しいアプローチを導入する。
提案手法は,連続したレコメンデーションの一貫性を維持し,推奨項目のユーザ受け入れ性を高める。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems [18.716102193517315]
強化学習 (Reinforcement Learning, RL) はレコメンデーションシステムの領域で人気を集めている。
この研究は、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入している。
RL環境を含むソフトウェアはGitHubで公開されている。
論文 参考訳(メタデータ) (2024-06-01T11:56:08Z) - A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。
提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文 参考訳(メタデータ) (2024-05-03T04:34:36Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - User Tampering in Reinforcement Learning Recommender Systems [2.28438857884398]
我々は、強化学習(RL)ベースのレコメンデーションアルゴリズム -- 'ユーザ改ざん' -- で発生する、ユニークな安全性上の懸念を強調します。
ユーザタンパリング(英: user tampering)とは、RLベースのレコメンデータシステムが、長期的なユーザエンゲージメントを最大化するためのポリシーの一環として、その提案を通じてメディアユーザの意見を操作できる状況である。
論文 参考訳(メタデータ) (2021-09-09T07:53:23Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。