論文の概要: PrefRec: Recommender Systems with Human Preferences for Reinforcing
Long-term User Engagement
- arxiv url: http://arxiv.org/abs/2212.02779v2
- Date: Fri, 2 Jun 2023 16:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:28:12.491489
- Title: PrefRec: Recommender Systems with Human Preferences for Reinforcing
Long-term User Engagement
- Title(参考訳): PrefRec: 長期ユーザエンゲージメント強化のための人間優先型レコメンダシステム
- Authors: Wanqi Xue, Qingpeng Cai, Zhenghai Xue, Shuo Sun, Shuchang Liu, Dong
Zheng, Peng Jiang, Kun Gai, Bo An
- Abstract要約: 我々は、人間の嗜好(または嗜好に基づくレコメンダシステム)を備えた新しいパラダイム、レコメンダシステムを提案する。
PrefRecでは、複雑な報酬工学を回避しつつ、長期的な目標を最適化する上でRLの利点を完全に活用できます。
- 参考スコア(独自算出の注目度): 36.95056214316392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current advances in recommender systems have been remarkably successful in
optimizing immediate engagement. However, long-term user engagement, a more
desirable performance metric, remains difficult to improve. Meanwhile, recent
reinforcement learning (RL) algorithms have shown their effectiveness in a
variety of long-term goal optimization tasks. For this reason, RL is widely
considered as a promising framework for optimizing long-term user engagement in
recommendation. Though promising, the application of RL heavily relies on
well-designed rewards, but designing rewards related to long-term user
engagement is quite difficult. To mitigate the problem, we propose a novel
paradigm, recommender systems with human preferences (or Preference-based
Recommender systems), which allows RL recommender systems to learn from
preferences about users historical behaviors rather than explicitly defined
rewards. Such preferences are easily accessible through techniques such as
crowdsourcing, as they do not require any expert knowledge. With PrefRec, we
can fully exploit the advantages of RL in optimizing long-term goals, while
avoiding complex reward engineering. PrefRec uses the preferences to
automatically train a reward function in an end-to-end manner. The reward
function is then used to generate learning signals to train the recommendation
policy. Furthermore, we design an effective optimization method for PrefRec,
which uses an additional value function, expectile regression and reward model
pre-training to improve the performance. We conduct experiments on a variety of
long-term user engagement optimization tasks. The results show that PrefRec
significantly outperforms previous state-of-the-art methods in all the tasks.
- Abstract(参考訳): 現在のレコメンダシステムの進歩は、即時エンゲージメントの最適化に著しく成功している。
しかしながら、より望ましいパフォーマンス指標である長期的なユーザエンゲージメントは、改善が難しいままです。
一方、近年の強化学習(RL)アルゴリズムは、様々な長期目標最適化タスクにおいて有効性を示している。
このため、RLは長期ユーザーエンゲージメントを最適化するための有望なフレームワークとして広く考えられている。
有望ではあるが、rlの応用はよく設計された報酬に大きく依存するが、長期ユーザーエンゲージメントに関連する報酬の設計は極めて困難である。
この問題を軽減するために,RLレコメンダシステムは,明確に定義された報酬ではなく,ユーザの過去の行動に対する嗜好から学習することができる,人間の嗜好(あるいは嗜好に基づくレコメンダシステム)を備えた新しいパラダイムを提案する。
このような好みは、専門家の知識を必要としないため、クラウドソーシングのような技術を通じて簡単にアクセスできます。
prefrecでは、複雑な報酬エンジニアリングを避けながら、長期目標の最適化にrlの利点を完全に活用できます。
PrefRecは好みを使って報酬関数をエンドツーエンドで自動的にトレーニングする。
報酬関数は、レコメンデーションポリシーをトレーニングするための学習信号を生成するために使用される。
さらに,付加価値関数,期待回帰および報奨モデルを用いたPrefRecの効率的な最適化手法を設計し,性能向上を図る。
我々は,様々な長期ユーザエンゲージメント最適化タスクについて実験を行う。
その結果、PrefRecはすべてのタスクにおいて従来の最先端メソッドよりも大幅に優れていた。
関連論文リスト
- Learned Ranking Function: From Short-term Behavior Predictions to Long-term User Satisfaction [11.109665449393738]
本稿では,Learnered Ranking Function(LRF)を提案する。LRFは,短期的なユーザ・イテム行動予測を入力として取り込んで,推薦のスレートを出力するシステムである。
本稿では,長期ユーザ満足度を最大化することを目的としたスレート最適化問題として,この問題を直接モデル化することを提案する。
論文 参考訳(メタデータ) (2024-08-12T22:02:39Z) - Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T12:23:54Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Reinforcing User Retention in a Billion Scale Short Video Recommender
System [21.681785801465328]
短いビデオプラットフォームは、興味深いコンテンツをユーザーに推薦することで、急速にユーザー成長を遂げた。
この勧告の目的は、ユーザ保持の最適化であり、DAU(Daily Active Users)の成長を促進することである。
論文 参考訳(メタデータ) (2023-02-03T13:25:43Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。