論文の概要: Differentiable Discrete Event Simulation for Queuing Network Control
- arxiv url: http://arxiv.org/abs/2409.03740v1
- Date: Thu, 5 Sep 2024 17:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:33:34.834572
- Title: Differentiable Discrete Event Simulation for Queuing Network Control
- Title(参考訳): キューイングネットワーク制御のための離散イベントの微分可能シミュレーション
- Authors: Ethan Che, Jing Dong, Hongseok Namkoong,
- Abstract要約: キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
- 参考スコア(独自算出の注目度): 7.965453961211742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Queuing network control is essential for managing congestion in job-processing systems such as service systems, communication networks, and manufacturing processes. Despite growing interest in applying reinforcement learning (RL) techniques, queueing network control poses distinct challenges, including high stochasticity, large state and action spaces, and lack of stability. To tackle these challenges, we propose a scalable framework for policy optimization based on differentiable discrete event simulation. Our main insight is that by implementing a well-designed smoothing technique for discrete event dynamics, we can compute pathwise policy gradients for large-scale queueing networks using auto-differentiation software (e.g., Tensorflow, PyTorch) and GPU parallelization. Through extensive empirical experiments, we observe that our policy gradient estimators are several orders of magnitude more accurate than typical REINFORCE-based estimators. In addition, We propose a new policy architecture, which drastically improves stability while maintaining the flexibility of neural-network policies. In a wide variety of scheduling and admission control tasks, we demonstrate that training control policies with pathwise gradients leads to a 50-1000x improvement in sample efficiency over state-of-the-art RL methods. Unlike prior tailored approaches to queueing, our methods can flexibly handle realistic scenarios, including systems operating in non-stationary environments and those with non-exponential interarrival/service times.
- Abstract(参考訳): ネットワーク制御は、サービスシステム、通信ネットワーク、製造プロセスなどのジョブ処理システムにおける混雑管理に不可欠である。
強化学習(RL)技術の適用への関心が高まっているにもかかわらず、待ち行列ネットワーク制御は、高い確率性、大きな状態と行動空間、安定性の欠如など、異なる課題を提起している。
これらの課題に対処するために、微分可能な離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
我々の主な洞察は、離散イベントダイナミクスのためのよく設計された平滑化技術を実装することで、自動微分ソフトウェア(例えば、Tensorflow、PyTorch)とGPU並列化を用いて、大規模キューネットワークのパスワイズポリシー勾配を計算することができるということである。
広範な実証実験を通して、我々の政策勾配推定器は、典型的なREINFORCEに基づく推定器よりも数桁精度が高いことが観察された。
さらに,ニューラルネットワークポリシの柔軟性を維持しつつ,安定性を大幅に向上させる新しいポリシアーキテクチャを提案する。
様々なスケジューリングおよび入出力制御タスクにおいて、パスワイド勾配によるトレーニング制御ポリシーが、最先端のRL法よりも50-1000倍の効率向上をもたらすことを示す。
待ち行列に対する事前の調整アプローチとは異なり、我々の手法は、非定常環境で稼働するシステムや、非指数的インターアリバル/サービス時間を持つシステムなど、現実的なシナリオを柔軟に処理できる。
関連論文リスト
- Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report [1.4201040196058878]
本研究は,従来の深層強化学習法に代わるオンライン深層強化学習制御(ODRLC)を提案する。
ODRLCはオンラインインタラクションを使用してキューイングネットワーク(SQN)の最適制御ポリシーを学習する
本稿では、ネットワークの安定性を確保するために、これらの介入支援ポリシーを設計する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:02:04Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Scheduling and Power Control for Wireless Multicast Systems via Deep
Reinforcement Learning [33.737301955006345]
無線システムにおけるマルチキャストは、コンテンツ中心ネットワークにおけるユーザ要求の冗長性を利用する方法である。
電力制御と最適スケジューリングは、衰退中の無線マルチキャストネットワークの性能を著しく向上させることができる。
提案手法により, 大規模システムに対して, 電力制御ポリシを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-09-27T15:59:44Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。