論文の概要: Processing Network Controls via Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.02119v1
- Date: Sun, 1 May 2022 04:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 08:28:23.222096
- Title: Processing Network Controls via Deep Reinforcement Learning
- Title(参考訳): 深層強化学習によるネットワーク制御処理
- Authors: Mark Gluzman
- Abstract要約: 論文は、理論上の正当化と、高度なポリシー勾配アルゴリズムの実用化に関するものである。
政策改善バウンダリは、APGアルゴリズムの理論的正当性において重要な役割を果たす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel advanced policy gradient (APG) algorithms, such as proximal policy
optimization (PPO), trust region policy optimization, and their variations,
have become the dominant reinforcement learning (RL) algorithms because of
their ease of implementation and good practical performance. This dissertation
is concerned with theoretical justification and practical application of the
APG algorithms for solving processing network control optimization problems.
Processing network control problems are typically formulated as Markov decision
process (MDP) or semi-Markov decision process (SMDP) problems that have several
unconventional for RL features: infinite state spaces, unbounded costs,
long-run average cost objectives. Policy improvement bounds play a crucial role
in the theoretical justification of the APG algorithms. In this thesis we
refine existing bounds for MDPs with finite state spaces and prove novel policy
improvement bounds for classes of MDPs and SMDPs used to model processing
network operations. We consider two examples of processing network control
problems and customize the PPO algorithm to solve them. First, we consider
parallel-server and multiclass queueing networks controls. Second, we consider
the drivers repositioning problem in a ride-hailing service system. For both
examples the PPO algorithm with auxiliary modifications consistently generates
control policies that outperform state-of-art heuristics.
- Abstract(参考訳): 近位政策最適化(ppo)、信頼領域政策最適化、およびそれらのバリエーションといった新しい先進的政策勾配(apg)アルゴリズムは、実装の容易さと実用的な性能のため、主要な強化学習(rl)アルゴリズムとなっている。
この論文は、ネットワーク制御最適化問題を解決するためのAPGアルゴリズムの理論的正当性と実践的応用に関するものである。
ネットワーク制御問題の処理は一般にマルコフ決定過程(MDP)または半マルコフ決定過程(SMDP)として定式化され、無限状態空間、非有界コスト、長期平均コストの目的など、RLの特徴に対していくつかの不便な問題が存在する。
政策改善境界は、APGアルゴリズムの理論的正当化において重要な役割を果たす。
この論文では、有限状態空間を持つMDPの既存の境界を洗練し、処理ネットワーク操作をモデル化するために使用されるMDPとSMDPのクラスに対する新しいポリシー改善境界を証明する。
ネットワーク制御問題を処理し、PPOアルゴリズムをカスタマイズして解決する2つの例を考察する。
まず,並列サーバおよびマルチクラス待ち行列ネットワーク制御について検討する。
第二に、配車サービスシステムにおけるドライバー配置の問題を考える。
どちらの例においても、補助的な修正を伴うPPOアルゴリズムは、最先端のヒューリスティックよりも優れた制御ポリシーを一貫して生成する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints [36.16736392624796]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。
我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。
ACMDPに適応した他の最先端アルゴリズムと比較して,実験性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-02-02T00:23:36Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。