Fugu-MT 論文翻訳(概要): Representation Learning in Low-rank Slate-based Recommender Systems

論文の概要: Representation Learning in Low-rank Slate-based Recommender Systems

arxiv url: http://arxiv.org/abs/2309.08622v2
Date: Tue, 19 Sep 2023 03:05:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 18:40:29.592336
Title: Representation Learning in Low-rank Slate-based Recommender Systems
Title（参考訳）: 低ランクスレート型レコメンダシステムにおける表現学習
Authors: Yijia Dai, Wen Sun
Abstract要約: 低ランクマルコフ決定プロセス(MDP)を用いたオンラインRL問題として扱うために,標準スレートレコメンデーション設定を用いたサンプル効率表現学習アルゴリズムを提案する。また,提案手法を用いて,提案手法を用いて推薦者シミュレーション環境を構築する。
参考スコア（独自算出の注目度）: 9.550552949693566
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reinforcement learning (RL) in recommendation systems offers the potential to optimize recommendations for long-term user engagement. However, the environment often involves large state and action spaces, which makes it hard to efficiently learn and explore. In this work, we propose a sample-efficient representation learning algorithm, using the standard slate recommendation setup, to treat this as an online RL problem with low-rank Markov decision processes (MDPs). We also construct the recommender simulation environment with the proposed setup and sampling method.
Abstract（参考訳）: 推薦システムにおける強化学習(RL)は、長期的なユーザエンゲージメントのための推奨を最適化する能力を提供する。しかし、環境はしばしば大きな状態と行動空間を伴い、効率的に学び、探索することは困難である。本研究では,標準スレートレコメンデーション設定を用いて,これを低ランクマルコフ決定プロセス(MDP)を用いたオンラインRL問題として扱うために,サンプル効率のよい表現学習アルゴリズムを提案する。また,提案手法を用いて,提案手法を用いて推薦者シミュレーション環境を構築する。

関連論文リスト

RecoMind: A Reinforcement Learning Framework for Optimizing In-Session User Satisfaction in Recommendation Systems [2.4762227354811293]
RecoMindは、Webスケールでのセッションベースの目標を効果的に最適化するために設計されたシミュレータベースの強化学習フレームワークである。 RecoMindは、従来の教師付き学習推奨手法よりも、セッション内ユーザの満足度において大幅に向上することを示す。
論文参考訳（メタデータ） (2025-07-31T23:01:14Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。 LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文参考訳（メタデータ） (2024-09-30T03:59:06Z)
FedSlate:A Federated Deep Reinforcement Learning Recommender System [18.641244204682536]
推薦システムにおける長期ユーザエンゲージメントの最適化に強化学習法が用いられている。潜在的な解決策の1つは、さまざまなプラットフォームから集中した場所にデータを集約し、集約されたデータをトレーニングに使用することである。このアプローチは、通信コストの増加やユーザプライバシに対する潜在的な脅威など、経済的および法的懸念を提起する。法的なレベルでの共有が禁止されている情報を効果的に活用する強化学習推薦アルゴリズムである textbfFedSlate を提案する。
論文参考訳（メタデータ） (2024-09-23T10:10:24Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
Incorporate LLMs with Influential Recommender System [34.5820082133773]
プロアクティブレコメンデーションシステムは、ターゲットアイテムに対するユーザの関心を導くために、一連のアイテムを推奨します。既存のメソッドは、ユーザが楽しむであろうアイテムで構成された一貫性のある影響パスを構築するのに苦労しています。 LLM-based Influence Path Planning (LLM-IPP) という新しいアプローチを導入する。提案手法は,連続したレコメンデーションの一貫性を維持し,推奨項目のユーザ受け入れ性を高める。
論文参考訳（メタデータ） (2024-09-07T13:41:37Z)
LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation [15.972926854420619]
大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。レコメンデーションタスクのための微調整LDMモデルは、計算コストと既存のシステムとのアライメントの問題を引き起こす。本研究は,LLMとオンラインレコメンデーションシステムとの連携を,LLMのチューニングを伴わない効果的戦略LANEを提案する。
論文参考訳（メタデータ） (2024-07-03T06:20:31Z)
SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems [18.716102193517315]
強化学習 (Reinforcement Learning, RL) はレコメンデーションシステムの領域で人気を集めている。この研究は、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入している。 RL環境を含むソフトウェアはGitHubで公開されている。
論文参考訳（メタデータ） (2024-06-01T11:56:08Z)
A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文参考訳（メタデータ） (2024-05-03T04:34:36Z)
AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。 AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文参考訳（メタデータ） (2023-10-06T02:45:21Z)
Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文参考訳（メタデータ） (2023-01-20T15:28:09Z)
Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文参考訳（メタデータ） (2022-07-04T17:58:39Z)
Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文参考訳（メタデータ） (2021-11-05T12:51:15Z)
User Tampering in Reinforcement Learning Recommender Systems [2.28438857884398]
我々は、強化学習(RL)ベースのレコメンデーションアルゴリズム -- 'ユーザ改ざん' -- で発生する、ユニークな安全性上の懸念を強調します。ユーザタンパリング(英: user tampering)とは、RLベースのレコメンデータシステムが、長期的なユーザエンゲージメントを最大化するためのポリシーの一環として、その提案を通じてメディアユーザの意見を操作できる状況である。
論文参考訳（メタデータ） (2021-09-09T07:53:23Z)
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-01T15:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。