論文の概要: PrefRec: Preference-based Recommender Systems for Reinforcing Long-term
User Engagement
- arxiv url: http://arxiv.org/abs/2212.02779v1
- Date: Tue, 6 Dec 2022 06:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:15:50.881090
- Title: PrefRec: Preference-based Recommender Systems for Reinforcing Long-term
User Engagement
- Title(参考訳): PrefRec: 長期ユーザエンゲージメント強化のための参照ベースのレコメンダシステム
- Authors: Wanqi Xue, Qingpeng Cai, Zhenghai Xue, Shuo Sun, Shuchang Liu, Dong
Zheng, Peng Jiang, Bo An
- Abstract要約: 我々は、PrefRec(Prefer-based Recommender System)という新しいパラダイムを提案する。
PrefRecにより、RLレコメンダシステムは、明確に定義された報酬ではなく、ユーザの過去の行動に関する好みから学ぶことができる。
PrefRecは,すべてのタスクにおいて,従来の最先端メソッドよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 32.38315100909005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current advances in recommender systems have been remarkably successful in
optimizing immediate engagement. However, long-term user engagement, a more
desirable performance metric, remains difficult to improve. Meanwhile, recent
reinforcement learning (RL) algorithms have shown their effectiveness in a
variety of long-term goal optimization tasks. For this reason, RL is widely
considered as a promising framework for optimizing long-term user engagement in
recommendation. Despite being a promising approach, the application of RL
heavily relies on well-designed rewards, but designing rewards related to
long-term user engagement is quite difficult. To mitigate the problem, we
propose a novel paradigm, Preference-based Recommender systems (PrefRec), which
allows RL recommender systems to learn from preferences about users' historical
behaviors rather than explicitly defined rewards. Such preferences are easily
accessible through techniques such as crowdsourcing, as they do not require any
expert knowledge. With PrefRec, we can fully exploit the advantages of RL in
optimizing long-term goals, while avoiding complex reward engineering. PrefRec
uses the preferences to automatically train a reward function in an end-to-end
manner. The reward function is then used to generate learning signals to train
the recommendation policy. Furthermore, we design an effective optimization
method for PrefRec, which uses an additional value function, expectile
regression and reward model pre-training to improve the performance. Extensive
experiments are conducted on a variety of long-term user engagement
optimization tasks. The results show that PrefRec significantly outperforms
previous state-of-the-art methods in all the tasks.
- Abstract(参考訳): 現在のレコメンダシステムの進歩は、即時エンゲージメントの最適化に著しく成功している。
しかしながら、より望ましいパフォーマンス指標である長期的なユーザエンゲージメントは、改善が難しいままです。
一方、近年の強化学習(RL)アルゴリズムは、様々な長期目標最適化タスクにおいて有効性を示している。
このため、RLは長期ユーザーエンゲージメントを最適化するための有望なフレームワークとして広く考えられている。
有望なアプローチであるにもかかわらず、rlの応用はよく設計された報酬に大きく依存しているが、長期ユーザーエンゲージメントに関連する報酬の設計は極めて困難である。
この問題を軽減するために,RLレコメンダシステムは,明示的に定義された報酬ではなく,ユーザの過去の行動に対する嗜好から学習することができる新しいパラダイム,Preference-based Recommender System(PrefRec)を提案する。
このような好みは、専門家の知識を必要としないため、クラウドソーシングのような技術を通じて簡単にアクセスできます。
prefrecでは、複雑な報酬エンジニアリングを避けながら、長期目標の最適化にrlの利点を完全に活用できます。
PrefRecは好みを使って報酬関数をエンドツーエンドで自動的にトレーニングする。
報酬関数は、レコメンデーションポリシーをトレーニングするための学習信号を生成するために使用される。
さらに,付加価値関数,期待回帰および報奨モデルを用いたPrefRecの効率的な最適化手法を設計し,性能向上を図る。
様々な長期ユーザエンゲージメント最適化タスクにおいて,大規模な実験を行う。
その結果、PrefRecはすべてのタスクにおいて従来の最先端メソッドよりも大幅に優れていた。
関連論文リスト
- Learned Ranking Function: From Short-term Behavior Predictions to Long-term User Satisfaction [11.109665449393738]
本稿では,Learnered Ranking Function(LRF)を提案する。LRFは,短期的なユーザ・イテム行動予測を入力として取り込んで,推薦のスレートを出力するシステムである。
本稿では,長期ユーザ満足度を最大化することを目的としたスレート最適化問題として,この問題を直接モデル化することを提案する。
論文 参考訳(メタデータ) (2024-08-12T22:02:39Z) - Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T12:23:54Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Reinforcing User Retention in a Billion Scale Short Video Recommender
System [21.681785801465328]
短いビデオプラットフォームは、興味深いコンテンツをユーザーに推薦することで、急速にユーザー成長を遂げた。
この勧告の目的は、ユーザ保持の最適化であり、DAU(Daily Active Users)の成長を促進することである。
論文 参考訳(メタデータ) (2023-02-03T13:25:43Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。