Fugu-MT 論文翻訳(概要): PrefRec: Recommender Systems with Human Preferences for Reinforcing Long-term User Engagement

論文の概要: PrefRec: Recommender Systems with Human Preferences for Reinforcing Long-term User Engagement

arxiv url: http://arxiv.org/abs/2212.02779v2
Date: Fri, 2 Jun 2023 16:19:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 20:28:12.491489
Title: PrefRec: Recommender Systems with Human Preferences for Reinforcing Long-term User Engagement
Title（参考訳）: PrefRec: 長期ユーザエンゲージメント強化のための人間優先型レコメンダシステム
Authors: Wanqi Xue, Qingpeng Cai, Zhenghai Xue, Shuo Sun, Shuchang Liu, Dong Zheng, Peng Jiang, Kun Gai, Bo An
Abstract要約: 我々は、人間の嗜好(または嗜好に基づくレコメンダシステム)を備えた新しいパラダイム、レコメンダシステムを提案する。 PrefRecでは、複雑な報酬工学を回避しつつ、長期的な目標を最適化する上でRLの利点を完全に活用できます。
参考スコア（独自算出の注目度）: 36.95056214316392
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Though promising, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, recommender systems with human preferences (or Preference-based Recommender systems), which allows RL recommender systems to learn from preferences about users historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. We conduct experiments on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
Abstract（参考訳）: 現在のレコメンダシステムの進歩は、即時エンゲージメントの最適化に著しく成功している。しかしながら、より望ましいパフォーマンス指標である長期的なユーザエンゲージメントは、改善が難しいままです。一方、近年の強化学習(RL)アルゴリズムは、様々な長期目標最適化タスクにおいて有効性を示している。このため、RLは長期ユーザーエンゲージメントを最適化するための有望なフレームワークとして広く考えられている。有望ではあるが、rlの応用はよく設計された報酬に大きく依存するが、長期ユーザーエンゲージメントに関連する報酬の設計は極めて困難である。この問題を軽減するために,RLレコメンダシステムは,明確に定義された報酬ではなく,ユーザの過去の行動に対する嗜好から学習することができる,人間の嗜好(あるいは嗜好に基づくレコメンダシステム)を備えた新しいパラダイムを提案する。このような好みは、専門家の知識を必要としないため、クラウドソーシングのような技術を通じて簡単にアクセスできます。 prefrecでは、複雑な報酬エンジニアリングを避けながら、長期目標の最適化にrlの利点を完全に活用できます。 PrefRecは好みを使って報酬関数をエンドツーエンドで自動的にトレーニングする。報酬関数は、レコメンデーションポリシーをトレーニングするための学習信号を生成するために使用される。さらに,付加価値関数,期待回帰および報奨モデルを用いたPrefRecの効率的な最適化手法を設計し,性能向上を図る。我々は,様々な長期ユーザエンゲージメント最適化タスクについて実験を行う。その結果、PrefRecはすべてのタスクにおいて従来の最先端メソッドよりも大幅に優れていた。

関連論文リスト

Listwise Preference Alignment Optimization for Tail Item Recommendation [29.20780001894192]
ペアワイズ比較からリストワイズ比較までブラッドリー・テリーモデルを拡張するLPO4Recを提案する。具体的には、明確な報酬モデルなしでより効率的で効果的なトレーニングを可能にするために、クローズドフォームの最適ポリシーを導出する。 3つの公開データセットに対する実験により、我々の手法は10の基準値よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2025-07-03T03:08:23Z)
OneRec Technical Report [65.24343832974165]
提案するOneRecは,エンド・ツー・エンドのジェネレーティブ・アプローチによってレコメンデーションシステムを再評価する。まず、現在のレコメンデーションモデルの計算FLOPを10$times$で拡張し、特定のバウンダリ内でのレコメンデーションのスケーリング法則を特定した。第2に、推薦の最適化にこれまで適用が困難であった強化学習技術は、この枠組みに有意な可能性を示している。
論文参考訳（メタデータ） (2025-06-16T16:58:55Z)
Learned Ranking Function: From Short-term Behavior Predictions to Long-term User Satisfaction [11.109665449393738]
本稿では,Learnered Ranking Function(LRF)を提案する。LRFは,短期的なユーザ・イテム行動予測を入力として取り込んで,推薦のスレートを出力するシステムである。本稿では,長期ユーザ満足度を最大化することを目的としたスレート最適化問題として,この問題を直接モデル化することを提案する。
論文参考訳（メタデータ） (2024-08-12T22:02:39Z)
Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文参考訳（メタデータ） (2024-06-26T12:23:54Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。 AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文参考訳（メタデータ） (2023-10-06T02:45:21Z)
Reinforcing User Retention in a Billion Scale Short Video Recommender System [21.681785801465328]
短いビデオプラットフォームは、興味深いコンテンツをユーザーに推薦することで、急速にユーザー成長を遂げた。この勧告の目的は、ユーザ保持の最適化であり、DAU(Daily Active Users)の成長を促進することである。
論文参考訳（メタデータ） (2023-02-03T13:25:43Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。 B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文参考訳（メタデータ） (2021-11-04T17:32:06Z)
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-01T15:58:05Z)
Reward Constrained Interactive Recommendation with Natural Language Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文参考訳（メタデータ） (2020-05-04T16:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。