論文の概要: Optimizing Audio Recommendations for the Long-Term: A Reinforcement
Learning Perspective
- arxiv url: http://arxiv.org/abs/2302.03561v1
- Date: Tue, 7 Feb 2023 16:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:47:18.979901
- Title: Optimizing Audio Recommendations for the Long-Term: A Reinforcement
Learning Perspective
- Title(参考訳): 長期音声推薦の最適化:強化学習の視点から
- Authors: Lucas Maystre, Daniel Russo, Yu Zhao
- Abstract要約: 本研究では,数週間ないし数ヶ月にわたって発生する結果に対して,レコメンデータシステムを最適化する問題について検討する。
我々は,数億のリスナーに対してパーソナライズされたレコメンデーションを行うポッドキャストレコメンデーションシステムにアプローチを適用した。
- 参考スコア(独自算出の注目度): 14.202749983552717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of optimizing a recommender system for outcomes that
occur over several weeks or months. We begin by drawing on reinforcement
learning to formulate a comprehensive model of users' recurring relationships
with a recommender system. Measurement, attribution, and coordination
challenges complicate algorithm design. We describe careful modeling --
including a new representation of user state and key conditional independence
assumptions -- which overcomes these challenges and leads to simple, testable
recommender system prototypes. We apply our approach to a podcast recommender
system that makes personalized recommendations to hundreds of millions of
listeners. A/B tests demonstrate that purposefully optimizing for long-term
outcomes leads to large performance gains over conventional approaches that
optimize for short-term proxies.
- Abstract(参考訳): 本研究では,数週間から数ヶ月の成果に対してレコメンダシステムを最適化する問題について検討する。
まず,レコメンデーションシステムを用いて,ユーザの繰り返し関係の包括的モデルを定式化する強化学習について考察する。
計測、帰属、コーディネーションの課題はアルゴリズム設計を複雑にする。
我々は、これらの課題を克服し、シンプルでテスト可能なシステムプロトタイプにつながる、慎重にモデリングする(ユーザ状態とキー条件独立の仮定の表現を含む)。
我々は,数億のリスナーに対してパーソナライズされたレコメンデーションを行うポッドキャストレコメンデーションシステムにアプローチを適用した。
A/Bテストは、長期的結果を意図的に最適化することで、短期プロキシを最適化する従来のアプローチよりも大きなパフォーマンス向上をもたらすことを示した。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。
提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文 参考訳(メタデータ) (2024-05-03T04:34:36Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。
このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文 参考訳(メタデータ) (2021-08-13T04:21:21Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Hybrid Model with Time Modeling for Sequential Recommender Systems [0.15229257192293202]
Booking.comはWSDM WebTour 2021 Challengeを組織した。
レコメンダシステムのための最先端のディープラーニングアーキテクチャをテストするために,いくつかの実験を行った。
実験結果から,narmの改善は他のベンチマーク手法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-07T19:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。