論文の概要: AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement
- arxiv url: http://arxiv.org/abs/2310.03984v1
- Date: Fri, 6 Oct 2023 02:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-10 03:29:45.588401
- Title: AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement
- Title(参考訳): AdaRec: 長期ユーザエンゲージメントの強化のための適応的シーケンスレコメンデーション
- Authors: Zhenghai Xue, Qingpeng Cai, Tianyou Zuo, Bin Yang, Lantao Hu, Peng
Jiang, Kun Gai, Bo An
- Abstract要約: 本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
- 参考スコア(独自算出の注目度): 25.18963930580529
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Growing attention has been paid to Reinforcement Learning (RL) algorithms
when optimizing long-term user engagement in sequential recommendation tasks.
One challenge in large-scale online recommendation systems is the constant and
complicated changes in users' behavior patterns, such as interaction rates and
retention tendencies. When formulated as a Markov Decision Process (MDP), the
dynamics and reward functions of the recommendation system are continuously
affected by these changes. Existing RL algorithms for recommendation systems
will suffer from distribution shift and struggle to adapt in such an MDP. In
this paper, we introduce a novel paradigm called Adaptive Sequential
Recommendation (AdaRec) to address this issue. AdaRec proposes a new
distance-based representation loss to extract latent information from users'
interaction trajectories. Such information reflects how RL policy fits to
current user behavior patterns, and helps the policy to identify subtle changes
in the recommendation system. To make rapid adaptation to these changes, AdaRec
encourages exploration with the idea of optimism under uncertainty. The
exploration is further guarded by zero-order action optimization to ensure
stable recommendation quality in complicated environments. We conduct extensive
empirical analyses in both simulator-based and live sequential recommendation
tasks, where AdaRec exhibits superior long-term performance compared to all
baseline algorithms.
- Abstract(参考訳): シーケンシャルレコメンデーションタスクにおいて、長期ユーザエンゲージメントを最適化する際、強化学習(RL)アルゴリズムに注目が集まる。
大規模オンラインレコメンデーションシステムにおける課題の1つは、対話率や保持傾向といったユーザの行動パターンの一定かつ複雑な変化である。
マルコフ決定過程(MDP)として定式化されると、レコメンデーションシステムの力学と報酬関数はこれらの変化に継続的に影響を受ける。
既存のレコメンデーションシステムのrlアルゴリズムは、分散シフトとそのようなmdpへの適応に苦しむことになる。
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
このような情報は、RLポリシーが現在のユーザの行動パターンにどのように適合するかを反映し、レコメンデーションシステムの微妙な変化を特定するのに役立つ。
これらの変化に迅速に適応するために、AdaRecは不確実性の下で楽観主義を探求することを奨励している。
この探索は、複雑な環境で安定したレコメンデーション品質を確保するため、ゼロオーダーアクション最適化によってさらに守られている。
adarecがすべてのベースラインアルゴリズムよりも優れた長期性能を示すシミュレータベースとライブシーケンシャルレコメンデーションタスクの両方において,広範な経験的解析を行う。
関連論文リスト
- Provable Zero-Shot Generalization in Offline Reinforcement Learning [55.169228792596805]
ゼロショット一般化特性(ZSG)を用いたオフライン強化学習について検討する。
既存の研究によると、古典的なオフラインRLは新しい、目に見えない環境に一般化できなかった。
PERM と PPPO はともに,ZSG による準最適政策を見出すことができることを示す。
論文 参考訳(メタデータ) (2025-03-11T02:44:32Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - CSRec: Rethinking Sequential Recommendation from A Causal Perspective [25.69446083970207]
シーケンシャルなレコメンデータシステム(RecSys)の本質は、ユーザが意思決定を行う方法を理解することです。
我々は、CSRec(Causal Sequential Recommendation)と呼ばれる、シーケンシャルレコメンデーションの新しい定式化を提案する。
CSRecは、シーケンシャルなコンテキスト内で推奨項目が受け入れられる確率を予測し、現在の決定がどのようになされるかをバックトラックすることを目的としている。
論文 参考訳(メタデータ) (2024-08-23T23:19:14Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - D2RLIR : an improved and diversified ranking function in interactive
recommendation systems based on deep reinforcement learning [0.3058685580689604]
本稿では,アクタ・クリティカルアーキテクチャを用いた深層強化学習に基づく推薦システムを提案する。
提案モデルでは,ユーザの嗜好に基づいて,多様かつ関連性の高いレコメンデーションリストを生成することができる。
論文 参考訳(メタデータ) (2021-10-28T13:11:29Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。
VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文 参考訳(メタデータ) (2021-10-17T19:28:45Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。