Fugu-MT 論文翻訳(概要): Multi-objective Optimization of Notifications Using Offline Reinforcement Learning

論文の概要: Multi-objective Optimization of Notifications Using Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2207.03029v1
Date: Thu, 7 Jul 2022 00:53:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-08 12:47:22.639914
Title: Multi-objective Optimization of Notifications Using Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習による通知の多目的最適化
Authors: Prakruthi Prabhakar, Yiping Yuan, Guangyu Yang, Wensheng Sun, Ajith Muralidharan
Abstract要約: 我々はマルコフ決定過程として準リアルタイム通知決定問題を定式化する。逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 1.2303635283131926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mobile notification systems play a major role in a variety of applications to communicate, send alerts and reminders to the users to inform them about news, events or messages. In this paper, we formulate the near-real-time notification decision problem as a Markov Decision Process where we optimize for multiple objectives in the rewards. We propose an end-to-end offline reinforcement learning framework to optimize sequential notification decisions. We address the challenge of offline learning using a Double Deep Q-network method based on Conservative Q-learning that mitigates the distributional shift problem and Q-value overestimation. We illustrate our fully-deployed system and demonstrate the performance and benefits of the proposed approach through both offline and online experiments.
Abstract（参考訳）: モバイル通知システムは、通信、アラート、リマインダーをユーザーに送信し、ニュース、イベント、メッセージについて通知する様々なアプリケーションにおいて重要な役割を果たす。本稿では,報奨の目的を複数に対して最適化するマルコフ決定プロセスとして,近時間通知決定問題を定式化する。逐次通知決定を最適化するエンドツーエンドのオフライン強化学習フレームワークを提案する。本稿では、分散シフト問題とQ値過大評価を緩和する保守的Q-ラーニングに基づくDouble Deep Q-network法によるオフライン学習の課題に対処する。我々は,本システムについて,オフライン実験とオンライン実験の両方を通じて,提案手法の性能とメリットを実証する。

関連論文リスト

Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems [54.709976343045824]
現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。 MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
論文参考訳（メタデータ） (2025-06-29T05:05:13Z)
Optimistic Learning for Communication Networks [16.33529267937042]
本チュートリアルでは,現代通信システムにおける資源管理フレームワークの決定エンジンとして,楽観的な学習(OpL)を提案する。我々は、OpLの基本概念、アルゴリズムおよび結果を紹介し、この理論のルーツについて議論し、最適化を定義し、達成するための異なるアプローチを示す。
論文参考訳（メタデータ） (2025-04-04T14:55:27Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Multi-Modal Self-Supervised Semantic Communication [52.76990720898666]
本稿では,マルチモーダルな自己教師型学習を活用し,タスク非依存の特徴抽出を強化するマルチモーダルセマンティックコミュニケーションシステムを提案する。提案手法は,訓練関連通信オーバーヘッドを最小限に抑えつつ,モダリティの不変性とモダリティ特有の特徴の両方を効果的に捉えている。この結果は、セマンティックコミュニケーションにおけるマルチモーダルな自己教師型学習の利点を浮き彫りにし、より効率的でスケーラブルなエッジ推論システムへの道を開いた。
論文参考訳（メタデータ） (2025-03-18T06:13:02Z)
Pull-Based Query Scheduling for Goal-Oriented Semantic Communication [14.787190731074322]
本稿では、プルベースステータス更新システムにおけるゴール指向セマンティック通信のためのクエリスケジューリングについて述べる。本稿では,有効度尺度(GoE)を導入し,長期的有効性分析に累積的視点理論(CPT)を統合する。本稿では、動的プログラミングに基づくモデルベースソリューションと、最先端の深層強化学習(DRL)アルゴリズムを用いたモデルフリーソリューションを提案する。
論文参考訳（メタデータ） (2025-03-09T18:51:14Z)
AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文参考訳（メタデータ） (2024-11-19T12:51:17Z)
Slicing for AI: An Online Learning Framework for Network Slicing Supporting AI Services [5.80147190706865]
6Gネットワークは、革新的なネットワークスライシング戦略を必要とするAI駆動サービスの新たな領域を受け入れる。本稿では,AIサービスへの計算・通信資源の割り当てを最適化するオンライン学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-20T14:38:54Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic 6G-Based Applications [14.51946231794179]
本稿では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。その目的は、$alpha$-fairnessメトリックを使用して、使い勝手のトレードオフを最適化することにある。 Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) 手法を提案する。
論文参考訳（メタデータ） (2024-01-12T00:32:38Z)
Exploring Federated Unlearning: Analysis, Comparison, and Insights [101.64910079905566]
フェデレーション・アンラーニングは、フェデレーション・システムで訓練されたモデルからデータを選択的に除去することを可能にする。本稿では,既存のフェデレーション・アンラーニング手法について検討し,アルゴリズムの効率,モデル精度への影響,プライバシ保護の有効性について検討する。フェデレートされたアンラーニング手法を評価するための統一ベンチマークであるOpenFederatedUnlearningフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-30T01:34:33Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
Age of Semantics in Cooperative Communications: To Expedite Simulation Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文参考訳（メタデータ） (2022-09-19T11:55:28Z)
A State Transition Model for Mobile Notifications via Survival Analysis [10.638942431625381]
通知の有効性を定量的に評価する状態遷移フレームワークを提案する。ログ線形構造とワイブル分布を仮定したバッジ通知のサバイバルモデルを構築した。この結果は,ロジスティック回帰モデルよりもアプリケーションの柔軟性が高く,予測精度が優れていることを示す。
論文参考訳（メタデータ） (2022-07-07T05:38:39Z)
Offline Reinforcement Learning for Mobile Notifications [1.965345368500676]
モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持において重要な役割を担っている。通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルを中心に構築されている。我々は、強化学習は、パフォーマンスとイテレーションのスピードの観点から、通知システムにとってより良いフレームワークであると主張する。
論文参考訳（メタデータ） (2022-02-04T22:22:22Z)
Cellular traffic offloading via Opportunistic Networking with Reinforcement Learning [0.5758073912084364]
本稿では,Reinforcement Learningフレームワークに基づく適応型オフロードソリューションを提案する。 Actor-Critic と Q-Learning の2つのよく知られた学習アルゴリズムの性能を評価し比較する。我々のソリューションは、他の最先端のアプローチよりも高いレベルのオフロードを実現する。
論文参考訳（メタデータ） (2021-10-01T13:34:12Z)
A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。 DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2021-06-08T16:27:04Z)
Learning to Recover Reasoning Chains for Multi-Hop Question Answering via Cooperative Games [66.98855910291292]
本稿では,弱い教師付き信号から推論連鎖を復元する学習法を提案する。証拠通路をどのように選択し、どのように選択された通路を接続するかを2つのモデルで処理する。評価のために、2つのマルチホップQAデータセットに基づいたベンチマークを作成しました。
論文参考訳（メタデータ） (2020-04-06T03:54:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。