論文の概要: Multi-objective Optimization of Notifications Using Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.03029v1
- Date: Thu, 7 Jul 2022 00:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 12:47:22.639914
- Title: Multi-objective Optimization of Notifications Using Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習による通知の多目的最適化
- Authors: Prakruthi Prabhakar, Yiping Yuan, Guangyu Yang, Wensheng Sun, Ajith
Muralidharan
- Abstract要約: 我々はマルコフ決定過程として準リアルタイム通知決定問題を定式化する。
逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.2303635283131926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile notification systems play a major role in a variety of applications to
communicate, send alerts and reminders to the users to inform them about news,
events or messages. In this paper, we formulate the near-real-time notification
decision problem as a Markov Decision Process where we optimize for multiple
objectives in the rewards. We propose an end-to-end offline reinforcement
learning framework to optimize sequential notification decisions. We address
the challenge of offline learning using a Double Deep Q-network method based on
Conservative Q-learning that mitigates the distributional shift problem and
Q-value overestimation. We illustrate our fully-deployed system and demonstrate
the performance and benefits of the proposed approach through both offline and
online experiments.
- Abstract(参考訳): モバイル通知システムは、通信、アラート、リマインダーをユーザーに送信し、ニュース、イベント、メッセージについて通知する様々なアプリケーションにおいて重要な役割を果たす。
本稿では,報奨の目的を複数に対して最適化するマルコフ決定プロセスとして,近時間通知決定問題を定式化する。
逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
本稿では、分散シフト問題とQ値過大評価を緩和する保守的Q-ラーニングに基づくDouble Deep Q-network法によるオフライン学習の課題に対処する。
我々は,本システムについて,オフライン実験とオンライン実験の両方を通じて,提案手法の性能とメリットを実証する。
関連論文リスト
- A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic
6G-Based Applications [14.51946231794179]
本稿では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。
その目的は、$alpha$-fairnessメトリックを使用して、使い勝手のトレードオフを最適化することにある。
Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) 手法を提案する。
論文 参考訳(メタデータ) (2024-01-12T00:32:38Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Efficient Communication via Self-supervised Information Aggregation for
Online and Offline Multi-agent Reinforcement Learning [12.334522644561591]
MARL(Multi-Agent Reinforcement Learning)の協調学習において,効率的なメッセージアグリゲーションは協調に不可欠である,と我々は主張する。
本稿では, エージェントが受信したメッセージをコンパクトな表現に集約し, ローカルポリシーの強化に高い関連性を持たせることができる, 自己教師型情報集約(MASIA)によるマルチエージェント通信を提案する。
私たちはマルチエージェント通信のためのオフラインベンチマークを構築しています。
論文 参考訳(メタデータ) (2023-02-19T16:02:16Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - A State Transition Model for Mobile Notifications via Survival Analysis [10.638942431625381]
通知の有効性を定量的に評価する状態遷移フレームワークを提案する。
ログ線形構造とワイブル分布を仮定したバッジ通知のサバイバルモデルを構築した。
この結果は,ロジスティック回帰モデルよりもアプリケーションの柔軟性が高く,予測精度が優れていることを示す。
論文 参考訳(メタデータ) (2022-07-07T05:38:39Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Offline Reinforcement Learning for Mobile Notifications [1.965345368500676]
モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持において重要な役割を担っている。
通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルを中心に構築されている。
我々は、強化学習は、パフォーマンスとイテレーションのスピードの観点から、通知システムにとってより良いフレームワークであると主張する。
論文 参考訳(メタデータ) (2022-02-04T22:22:22Z) - Offline Contextual Bandits for Wireless Network Optimization [107.24086150482843]
本稿では,ユーザ要求の変化に応じて,ネットワーク内の各セルの構成パラメータを自動的に調整するポリシの学習方法について検討する。
私たちのソリューションは、オフライン学習のための既存の方法を組み合わせて、この文脈で生じる重要な課題を克服する原則的な方法でそれらを適応します。
論文 参考訳(メタデータ) (2021-11-11T11:31:20Z) - Cellular traffic offloading via Opportunistic Networking with
Reinforcement Learning [0.5758073912084364]
本稿では,Reinforcement Learningフレームワークに基づく適応型オフロードソリューションを提案する。
Actor-Critic と Q-Learning の2つのよく知られた学習アルゴリズムの性能を評価し比較する。
我々のソリューションは、他の最先端のアプローチよりも高いレベルのオフロードを実現する。
論文 参考訳(メタデータ) (2021-10-01T13:34:12Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Learning to Recover Reasoning Chains for Multi-Hop Question Answering
via Cooperative Games [66.98855910291292]
本稿では,弱い教師付き信号から推論連鎖を復元する学習法を提案する。
証拠通路をどのように選択し、どのように選択された通路を接続するかを2つのモデルで処理する。
評価のために、2つのマルチホップQAデータセットに基づいたベンチマークを作成しました。
論文 参考訳(メタデータ) (2020-04-06T03:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。