論文の概要: Automatic Music Playlist Generation via Simulation-based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.09123v1
- Date: Fri, 13 Oct 2023 14:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 12:49:18.060331
- Title: Automatic Music Playlist Generation via Simulation-based Reinforcement
Learning
- Title(参考訳): シミュレーションに基づく強化学習による音楽プレイリストの自動生成
- Authors: Federico Tomasi, Joseph Cauteruccio, Surya Kanoria, Kamil Ciosek,
Matteo Rinaldi, Zhenwen Dai
- Abstract要約: プレイリストのパーソナライズは、音楽ストリーミングサービスで一般的な機能である。
シミュレーションされたプレイリスト生成環境を用いて,ユーザの満足度を計測する強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.628525710776877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalization of playlists is a common feature in music streaming services,
but conventional techniques, such as collaborative filtering, rely on explicit
assumptions regarding content quality to learn how to make recommendations.
Such assumptions often result in misalignment between offline model objectives
and online user satisfaction metrics. In this paper, we present a reinforcement
learning framework that solves for such limitations by directly optimizing for
user satisfaction metrics via the use of a simulated playlist-generation
environment. Using this simulator we develop and train a modified Deep
Q-Network, the action head DQN (AH-DQN), in a manner that addresses the
challenges imposed by the large state and action space of our RL formulation.
The resulting policy is capable of making recommendations from large and
dynamic sets of candidate items with the expectation of maximizing consumption
metrics. We analyze and evaluate agents offline via simulations that use
environment models trained on both public and proprietary streaming datasets.
We show how these agents lead to better user-satisfaction metrics compared to
baseline methods during online A/B tests. Finally, we demonstrate that
performance assessments produced from our simulator are strongly correlated
with observed online metric results.
- Abstract(参考訳): プレイリストのパーソナライズは音楽ストリーミングサービスでは一般的な機能であるが、協調フィルタリングのような従来の手法は、コンテンツ品質に関する明確な仮定に依存してレコメンデーションの作り方を学ぶ。
このような仮定は、しばしばオフラインモデルの目的とオンラインユーザの満足度指標の不一致をもたらす。
本稿では,シミュレーションされたプレイリスト生成環境を用いてユーザ満足度指標を直接最適化することにより,そのような制約を解決する強化学習フレームワークを提案する。
本シミュレータを用いて,RL の大規模状態と行動空間がもたらす課題に対処するため,DQN (AH-DQN) を改良したDeep Q-Network を開発し,訓練する。
結果として得られたポリシーは、消費指標の最大化を期待して、候補項目の大規模かつ動的なセットからレコメンデーションを行うことができる。
パブリックデータセットとプロプライエタリデータセットの両方でトレーニングされた環境モデルを使用するシミュレーションを通じてエージェントをオフラインで分析および評価する。
オンラインA/Bテストにおける基準手法と比較して,これらのエージェントがユーザ満足度を向上することを示す。
最後に,シミュレーション結果から得られた性能評価とオンライン測定結果との相関が強いことを実証する。
関連論文リスト
- Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Federated Privacy-preserving Collaborative Filtering for On-Device Next
App Prediction [52.16923290335873]
本稿では,モバイルデバイス使用時の次のアプリの起動を予測するための新しいSeqMFモデルを提案する。
古典行列分解モデルの構造を修正し、学習手順を逐次学習に更新する。
提案手法のもうひとつの要素は,ユーザからリモートサーバへの送信データの保護を保証する,新たなプライバシメカニズムである。
論文 参考訳(メタデータ) (2023-02-05T10:29:57Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - Imitate TheWorld: A Search Engine Simulation Platform [13.011052642314421]
生成されたページに対して、よく訓練された識別器によるフィードバックを適切に提供できるシミュレーション検索エンジンAESimを構築した。
実世界とのつながりを失う従来のシミュレーションプラットフォームとは異なり、われわれのデータは検索の実際のデータに依存している。
我々の実験は、AESimが古典的なランキングの指標よりも、ランキングモデルのオンラインパフォーマンスをよりよく反映できることを示した。
論文 参考訳(メタデータ) (2021-07-16T03:55:33Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。