Fugu-MT 論文翻訳(概要): Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective

論文の概要: Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective

arxiv url: http://arxiv.org/abs/2302.03561v1
Date: Tue, 7 Feb 2023 16:17:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 15:47:18.979901
Title: Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective
Title（参考訳）: 長期音声推薦の最適化:強化学習の視点から
Authors: Lucas Maystre, Daniel Russo, Yu Zhao
Abstract要約: 本研究では,数週間ないし数ヶ月にわたって発生する結果に対して,レコメンデータシステムを最適化する問題について検討する。我々は,数億のリスナーに対してパーソナライズされたレコメンデーションを行うポッドキャストレコメンデーションシステムにアプローチを適用した。
参考スコア（独自算出の注目度）: 14.202749983552717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the problem of optimizing a recommender system for outcomes that occur over several weeks or months. We begin by drawing on reinforcement learning to formulate a comprehensive model of users' recurring relationships with a recommender system. Measurement, attribution, and coordination challenges complicate algorithm design. We describe careful modeling -- including a new representation of user state and key conditional independence assumptions -- which overcomes these challenges and leads to simple, testable recommender system prototypes. We apply our approach to a podcast recommender system that makes personalized recommendations to hundreds of millions of listeners. A/B tests demonstrate that purposefully optimizing for long-term outcomes leads to large performance gains over conventional approaches that optimize for short-term proxies.
Abstract（参考訳）: 本研究では,数週間から数ヶ月の成果に対してレコメンダシステムを最適化する問題について検討する。まず,レコメンデーションシステムを用いて,ユーザの繰り返し関係の包括的モデルを定式化する強化学習について考察する。計測、帰属、コーディネーションの課題はアルゴリズム設計を複雑にする。我々は、これらの課題を克服し、シンプルでテスト可能なシステムプロトタイプにつながる、慎重にモデリングする(ユーザ状態とキー条件独立の仮定の表現を含む)。我々は,数億のリスナーに対してパーソナライズされたレコメンデーションを行うポッドキャストレコメンデーションシステムにアプローチを適用した。 A/Bテストは、長期的結果を意図的に最適化することで、短期プロキシを最適化する従来のアプローチよりも大きなパフォーマンス向上をもたらすことを示した。

関連論文リスト

RecoMind: A Reinforcement Learning Framework for Optimizing In-Session User Satisfaction in Recommendation Systems [2.4762227354811293]
RecoMindは、Webスケールでのセッションベースの目標を効果的に最適化するために設計されたシミュレータベースの強化学習フレームワークである。 RecoMindは、従来の教師付き学習推奨手法よりも、セッション内ユーザの満足度において大幅に向上することを示す。
論文参考訳（メタデータ） (2025-07-31T23:01:14Z)
OneRec Technical Report [65.24343832974165]
提案するOneRecは,エンド・ツー・エンドのジェネレーティブ・アプローチによってレコメンデーションシステムを再評価する。まず、現在のレコメンデーションモデルの計算FLOPを10$times$で拡張し、特定のバウンダリ内でのレコメンデーションのスケーリング法則を特定した。第2に、推薦の最適化にこれまで適用が困難であった強化学習技術は、この枠組みに有意な可能性を示している。
論文参考訳（メタデータ） (2025-06-16T16:58:55Z)
Slow Thinking for Sequential Recommendation [88.46598279655575]
本稿では,STREAM-Recという新しいスローシンキングレコメンデーションモデルを提案する。弊社のアプローチは、過去のユーザの振る舞いを分析し、多段階の熟考的推論プロセスを生成し、パーソナライズされたレコメンデーションを提供する。具体的には,(1)レコメンデーションシステムにおける適切な推論パターンを特定すること,(2)従来のレコメンデーションシステムの推論能力を効果的に刺激する方法を検討すること,の2つの課題に焦点を当てる。
論文参考訳（メタデータ） (2025-04-13T15:53:30Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
Scaling New Frontiers: Insights into Large Recommendation Models [74.77410470984168]
MetaのジェネレーティブレコメンデーションモデルHSTUは、パラメータを数千億に拡張することでレコメンデーションシステムのスケーリング法則を説明している。我々は、これらのスケーリング法則の起源を探るため、包括的なアブレーション研究を行っている。大規模なレコメンデーションモデルの今後の方向性に関する洞察を提供する。
論文参考訳（メタデータ） (2024-12-01T07:27:20Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
A Model-based Multi-Agent Personalized Short-Video Recommender System [19.03089585214444]
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。提案フレームワークでは,サンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用している。提案手法は,当社の大規模ショートビデオ共有プラットフォームに導入されている。
論文参考訳（メタデータ） (2024-05-03T04:34:36Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文参考訳（メタデータ） (2023-05-31T13:51:26Z)
Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文参考訳（メタデータ） (2022-06-14T16:35:58Z)
Model-Based Deep Learning: On the Intersection of Deep Learning and Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文参考訳（メタデータ） (2022-05-05T13:40:08Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文参考訳（メタデータ） (2021-08-13T04:21:21Z)
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-01T15:58:05Z)
Hybrid Model with Time Modeling for Sequential Recommender Systems [0.15229257192293202]
Booking.comはWSDM WebTour 2021 Challengeを組織した。レコメンダシステムのための最先端のディープラーニングアーキテクチャをテストするために,いくつかの実験を行った。実験結果から,narmの改善は他のベンチマーク手法よりも優れていた。
論文参考訳（メタデータ） (2021-03-07T19:28:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。