論文の概要: Multi-objective Optimization of Notifications Using Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.03029v1
- Date: Thu, 7 Jul 2022 00:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 12:47:22.639914
- Title: Multi-objective Optimization of Notifications Using Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習による通知の多目的最適化
- Authors: Prakruthi Prabhakar, Yiping Yuan, Guangyu Yang, Wensheng Sun, Ajith
Muralidharan
- Abstract要約: 我々はマルコフ決定過程として準リアルタイム通知決定問題を定式化する。
逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.2303635283131926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile notification systems play a major role in a variety of applications to
communicate, send alerts and reminders to the users to inform them about news,
events or messages. In this paper, we formulate the near-real-time notification
decision problem as a Markov Decision Process where we optimize for multiple
objectives in the rewards. We propose an end-to-end offline reinforcement
learning framework to optimize sequential notification decisions. We address
the challenge of offline learning using a Double Deep Q-network method based on
Conservative Q-learning that mitigates the distributional shift problem and
Q-value overestimation. We illustrate our fully-deployed system and demonstrate
the performance and benefits of the proposed approach through both offline and
online experiments.
- Abstract(参考訳): モバイル通知システムは、通信、アラート、リマインダーをユーザーに送信し、ニュース、イベント、メッセージについて通知する様々なアプリケーションにおいて重要な役割を果たす。
本稿では,報奨の目的を複数に対して最適化するマルコフ決定プロセスとして,近時間通知決定問題を定式化する。
逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
本稿では、分散シフト問題とQ値過大評価を緩和する保守的Q-ラーニングに基づくDouble Deep Q-network法によるオフライン学習の課題に対処する。
我々は,本システムについて,オフライン実験とオンライン実験の両方を通じて,提案手法の性能とメリットを実証する。
関連論文リスト
- AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。
この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文 参考訳(メタデータ) (2024-11-19T12:51:17Z) - Slicing for AI: An Online Learning Framework for Network Slicing Supporting AI Services [5.80147190706865]
6Gネットワークは、革新的なネットワークスライシング戦略を必要とするAI駆動サービスの新たな領域を受け入れる。
本稿では,AIサービスへの計算・通信資源の割り当てを最適化するオンライン学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T14:38:54Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic 6G-Based Applications [14.51946231794179]
本稿では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。
その目的は、$alpha$-fairnessメトリックを使用して、使い勝手のトレードオフを最適化することにある。
Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) 手法を提案する。
論文 参考訳(メタデータ) (2024-01-12T00:32:38Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - A State Transition Model for Mobile Notifications via Survival Analysis [10.638942431625381]
通知の有効性を定量的に評価する状態遷移フレームワークを提案する。
ログ線形構造とワイブル分布を仮定したバッジ通知のサバイバルモデルを構築した。
この結果は,ロジスティック回帰モデルよりもアプリケーションの柔軟性が高く,予測精度が優れていることを示す。
論文 参考訳(メタデータ) (2022-07-07T05:38:39Z) - Offline Reinforcement Learning for Mobile Notifications [1.965345368500676]
モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持において重要な役割を担っている。
通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルを中心に構築されている。
我々は、強化学習は、パフォーマンスとイテレーションのスピードの観点から、通知システムにとってより良いフレームワークであると主張する。
論文 参考訳(メタデータ) (2022-02-04T22:22:22Z) - Cellular traffic offloading via Opportunistic Networking with
Reinforcement Learning [0.5758073912084364]
本稿では,Reinforcement Learningフレームワークに基づく適応型オフロードソリューションを提案する。
Actor-Critic と Q-Learning の2つのよく知られた学習アルゴリズムの性能を評価し比較する。
我々のソリューションは、他の最先端のアプローチよりも高いレベルのオフロードを実現する。
論文 参考訳(メタデータ) (2021-10-01T13:34:12Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Learning to Recover Reasoning Chains for Multi-Hop Question Answering
via Cooperative Games [66.98855910291292]
本稿では,弱い教師付き信号から推論連鎖を復元する学習法を提案する。
証拠通路をどのように選択し、どのように選択された通路を接続するかを2つのモデルで処理する。
評価のために、2つのマルチホップQAデータセットに基づいたベンチマークを作成しました。
論文 参考訳(メタデータ) (2020-04-06T03:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。