論文の概要: Offline Reinforcement Learning for Mobile Notifications
- arxiv url: http://arxiv.org/abs/2202.03867v1
- Date: Fri, 4 Feb 2022 22:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 15:22:41.453401
- Title: Offline Reinforcement Learning for Mobile Notifications
- Title(参考訳): モバイル通知のためのオフライン強化学習
- Authors: Yiping Yuan, Ajith Muralidharan, Preetam Nandy, Miao Cheng, Prakruthi
Prabhakar
- Abstract要約: モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持において重要な役割を担っている。
通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルを中心に構築されている。
我々は、強化学習は、パフォーマンスとイテレーションのスピードの観点から、通知システムにとってより良いフレームワークであると主張する。
- 参考スコア(独自算出の注目度): 1.965345368500676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile notification systems have taken a major role in driving and
maintaining user engagement for online platforms. They are interesting
recommender systems to machine learning practitioners with more sequential and
long-term feedback considerations. Most machine learning applications in
notification systems are built around response-prediction models, trying to
attribute both short-term impact and long-term impact to a notification
decision. However, a user's experience depends on a sequence of notifications
and attributing impact to a single notification is not always accurate, if not
impossible. In this paper, we argue that reinforcement learning is a better
framework for notification systems in terms of performance and iteration speed.
We propose an offline reinforcement learning framework to optimize sequential
notification decisions for driving user engagement. We describe a
state-marginalized importance sampling policy evaluation approach, which can be
used to evaluate the policy offline and tune learning hyperparameters. Through
simulations that approximate the notifications ecosystem, we demonstrate the
performance and benefits of the offline evaluation approach as a part of the
reinforcement learning modeling approach. Finally, we collect data through
online exploration in the production system, train an offline Double Deep
Q-Network and launch a successful policy online. We also discuss the practical
considerations and results obtained by deploying these policies for a
large-scale recommendation system use-case.
- Abstract(参考訳): モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持に重要な役割を果たしている。
これらは、よりシーケンシャルで長期的なフィードバックを考慮した機械学習実践者にとって興味深い推奨システムである。
通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルに基づいて構築されており、通知決定に短期的影響と長期的影響の両方を関連付けようとしている。
しかし、ユーザエクスペリエンスは通知のシーケンスに依存し、単一の通知に対する影響は必ずしも正確ではない。
本稿では,強化学習は,通知システムの性能とイテレーション速度の面で,優れたフレームワークであると主張する。
ユーザエンゲージメントを駆動するためのシーケンシャルな通知決定を最適化するオフライン強化学習フレームワークを提案する。
本稿では,ポリシーをオフラインで評価し,学習ハイパーパラメータをチューニングするために使用できる,重要度サンプリングポリシー評価手法について述べる。
通知エコシステムを近似するシミュレーションを通じて,強化学習モデリング手法の一環として,オフライン評価手法の性能とメリットを実証する。
最後に、プロダクションシステムのオンライン探索を通じてデータを収集し、オフラインのダブルディープqネットワークをトレーニングし、オンラインのポリシーを成功させます。
また,これらのポリシーを大規模レコメンデーションシステムに導入することで得られる実践的考察と成果についても論じる。
関連論文リスト
- System-2 Recommenders: Disentangling Utility and Engagement in Recommendation Systems via Temporal Point-Processes [80.97898201876592]
本稿では,過去のコンテンツインタラクションが,自己興奮型ホークスプロセスに基づくユーザの到着率に影響を及ぼす生成モデルを提案する。
そこで本研究では,システム1とシステム2のアンタングルを解消し,ユーザ利用によるコンテンツ最適化を可能にすることを解析的に示す。
論文 参考訳(メタデータ) (2024-05-29T18:19:37Z) - Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability [1.0985060632689174]
本研究の目的は,本研究の本質的な動機づけ強化学習アルゴリズムを検討することである。
我々は,ランダムなネットワーク蒸留と好奇心駆動型強化学習に適応して,国家訪問頻度を測定する。
不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。
論文 参考訳(メタデータ) (2024-01-31T18:03:39Z) - Online Matching: A Real-time Bandit System for Large-scale
Recommendations [23.954049092470548]
Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:46:27Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Multi-objective Optimization of Notifications Using Offline
Reinforcement Learning [1.2303635283131926]
我々はマルコフ決定過程として準リアルタイム通知決定問題を定式化する。
逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T00:53:08Z) - Offline Preference-Based Apprenticeship Learning [11.21888613165599]
我々は、オフラインデータセットを使用して、自律システムが人間から学び、適応し、協力しようとするときに直面する2つの課題に対処する方法について研究する。
まず、オフラインデータセットを使用して、プールベースのアクティブな嗜好学習を通じて、人間の報酬関数を効率的に推測する。
第2に、この学習報酬関数から、推定された人間の意図に基づいてポリシーを最適化するオフライン強化学習を行う。
論文 参考訳(メタデータ) (2021-07-20T04:15:52Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。