論文の概要: Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective
- arxiv url: http://arxiv.org/abs/2302.03561v3
- Date: Sat, 27 Jul 2024 17:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:26:28.704673
- Title: Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective
- Title(参考訳): 長期音声推薦の最適化:強化学習の視点から
- Authors: Lucas Maystre, Daniel Russo, Yu Zhao,
- Abstract要約: 本稿では,産業規模でのポッドキャストレコメンデーションシステムについて紹介する。
機械学習アルゴリズムを短時間のプロキシメトリクスに最適化するという、幅広い業界慣行から逸脱して、システムはA/Bテストの長期的なパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 11.31980071390936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel podcast recommender system deployed at industrial scale. This system successfully optimizes personal listening journeys that unfold over months for hundreds of millions of listeners. In deviating from the pervasive industry practice of optimizing machine learning algorithms for short-term proxy metrics, the system substantially improves long-term performance in A/B tests. The paper offers insights into how our methods cope with attribution, coordination, and measurement challenges that usually hinder such long-term optimization. To contextualize these practical insights within a broader academic framework, we turn to reinforcement learning (RL). Using the language of RL, we formulate a comprehensive model of users' recurring relationships with a recommender system. Then, within this model, we identify our approach as a policy improvement update to a component of the existing recommender system, enhanced by tailored modeling of value functions and user-state representations. Illustrative offline experiments suggest this specialized modeling reduces data requirements by as much as a factor of 120,000 compared to black-box approaches.
- Abstract(参考訳): 本稿では,産業規模でのポッドキャストレコメンデーションシステムについて紹介する。
このシステムは、数億のリスナーに対して数ヶ月にわたって展開するパーソナルリスニングの最適化に成功している。
機械学習アルゴリズムを短時間のプロキシメトリクスに最適化するという、幅広い業界慣行から逸脱して、システムはA/Bテストの長期的なパフォーマンスを大幅に改善する。
この論文は、我々の手法が帰属、調整、測定の課題にどのように対処し、そのような長期的な最適化を妨げているかについての洞察を提供する。
より広範な学術的な枠組みの中で、これらの実践的な洞察を文脈化するために、強化学習(RL)に目を向ける。
RLの言語を用いて,レコメンダシステムとユーザの繰り返し関係の包括的モデルを定式化する。
そこで本モデルでは,提案手法を既存のレコメンデータシステムのコンポーネントに対するポリシー改善の更新として認識し,値関数とユーザ状態表現のモデル化によって拡張する。
図示的なオフライン実験は、この特殊なモデリングによって、ブラックボックスアプローチと比較して、データ要求を最大12万倍削減することを示している。
関連論文リスト
- AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - Recommendation Fairness: From Static to Dynamic [12.080824433982993]
推薦のための強化学習手法に公平性を組み込む方法について論じる。
我々は、推薦公正性をさらに前進させるために、マルチエージェント(ゲーム理論)最適化、マルチオブジェクト(パレート)最適化を検討すべきかもしれないと論じる。
論文 参考訳(メタデータ) (2021-09-05T21:38:05Z) - Top-N Recommendation with Counterfactual User Preference Simulation [26.597102553608348]
ユーザーランキングに基づく好みの学習を目的としたTop-Nレコメンデーションは、長い間、広範囲のアプリケーションにおいて基本的な問題だった。
本稿では,データ不足問題に対処するため,因果推論フレームワーク内での推薦タスクの再構築を提案する。
論文 参考訳(メタデータ) (2021-09-02T14:28:46Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Hybrid Model with Time Modeling for Sequential Recommender Systems [0.15229257192293202]
Booking.comはWSDM WebTour 2021 Challengeを組織した。
レコメンダシステムのための最先端のディープラーニングアーキテクチャをテストするために,いくつかの実験を行った。
実験結果から,narmの改善は他のベンチマーク手法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-07T19:28:22Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z) - Latent Unexpected Recommendations [89.2011481379093]
ユーザとアイテムの埋め込みの潜伏した空間における予測性をモデル化し、新しいレコメンデーションと歴史的購入の間の隠れた複雑な関係を捉えることを提案する。
さらに,ハイブリッドユーティリティ機能の構築と,提案モデルに基づく予期せぬ推薦を行うための新しい潜在クロージャ(LC)手法を開発した。
論文 参考訳(メタデータ) (2020-07-27T02:39:30Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。