論文の概要: Reinforcement Learning-based Product Delivery Frequency Control
- arxiv url: http://arxiv.org/abs/2012.10858v1
- Date: Sun, 20 Dec 2020 07:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:46:54.275854
- Title: Reinforcement Learning-based Product Delivery Frequency Control
- Title(参考訳): 強化学習に基づく製品配信頻度制御
- Authors: Yang Liu, Zhengxing Chen, Kittipat Virochsiri, Juan Wang, Jiahao Wu,
Feng Liang
- Abstract要約: 頻度制御は、製品の品質と効率を維持するために推奨のデリバリ頻度を決定する。
強化学習(RL)による長期的価値最適化と,"Effective Factor"と呼ばれる堅牢なボリューム制御技術を組み合わせた,周波数制御問題のパーソナライズされた方法論を提案する。
本手法は,数十億ユーザ規模の通知アプリケーションにおいて,日々のメトリクスと資源効率の統計的に有意な改善を示す。
- 参考スコア(独自算出の注目度): 8.8107628839239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frequency control is an important problem in modern recommender systems. It
dictates the delivery frequency of recommendations to maintain product quality
and efficiency. For example, the frequency of delivering promotional
notifications impacts daily metrics as well as the infrastructure resource
consumption (e.g. CPU and memory usage). There remain open questions on what
objective we should optimize to represent business values in the long term
best, and how we should balance between daily metrics and resource consumption
in a dynamically fluctuating environment. We propose a personalized methodology
for the frequency control problem, which combines long-term value optimization
using reinforcement learning (RL) with a robust volume control technique we
termed "Effective Factor". We demonstrate statistically significant improvement
in daily metrics and resource efficiency by our method in several notification
applications at a scale of billions of users. To our best knowledge, our study
represents the first deep RL application on the frequency control problem at
such an industrial scale.
- Abstract(参考訳): 周波数制御は現代のレコメンダシステムにおいて重要な問題である。
製品の品質と効率を維持するための推奨のデリバリ頻度を規定している。
例えば、プロモーション通知の配信頻度は、日々のメトリクスとインフラリソースの消費(例)に影響します。
CPUとメモリ使用量)。
長期的なビジネス価値を表現するために最適化すべき目的と、動的に変動する環境での日々のメトリクスとリソース消費のバランスについて、依然としてオープンな疑問があります。
本研究では,強化学習(rl)を用いた長期的価値最適化と「有効要因」と呼ばれるロバストなボリューム制御手法を組み合わせた周波数制御問題のパーソナライズ手法を提案する。
本手法は,数十億ユーザ規模の通知アプリケーションにおいて,日々のメトリクスと資源効率の統計的に有意な改善を示す。
我々の知る限り、我々の研究はそのような産業規模での周波数制御問題に対する最初の深いRL応用である。
関連論文リスト
- When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Reinforcement Learning with Elastic Time Steps [14.838483990647697]
Multi-Objective Soft Elastic Actor-Critic (MOSEAC) は、弾性時間ステップを用いて制御周波数を動的に調整する非政治アクター批判アルゴリズムである。
我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。
論文 参考訳(メタデータ) (2024-02-22T20:49:04Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Communication-Efficient Orchestrations for URLLC Service via
Hierarchical Reinforcement Learning [14.604814002402588]
制御ループの時間スケールが異なるマルチレベルポリシーの実装を可能にするマルチエージェント階層型RL(HRL)フレームワークを提案する。
従来技術のユースケースでは、HRLフレームワークを用いて、産業機器の最大送電量と送電電力を最適化した。
論文 参考訳(メタデータ) (2023-07-25T11:23:38Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical
Report [117.23323653198297]
ユーザが経験した情報の鮮度と、センサが消費するエネルギーのバランスをとっています。
対応するステータス更新手順を継続的なマルコフ決定プロセス(MDP)としてキャストします。
次元の呪いを回避するため,我々は深層強化学習(DRL)アルゴリズムを設計するための方法論を確立した。
論文 参考訳(メタデータ) (2021-04-13T12:29:55Z) - Deep Controlled Learning for Inventory Control [0.0]
Controlled Deep Learning (DCL)は、在庫問題に対処するために特別に設計された近似ポリシーに基づく新しいDRLフレームワークである。
DCLは、失われた在庫管理、分かりやすい在庫システム、そして無作為なリードタイムで在庫システムにおいて、既存の最先端のイテレーションを上回ります。
これらの大幅な性能改善とロバスト性改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する道を開く。
論文 参考訳(メタデータ) (2020-11-30T18:53:08Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。