論文の概要: Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization
- arxiv url: http://arxiv.org/abs/2507.18795v1
- Date: Thu, 24 Jul 2025 20:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.750453
- Title: Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization
- Title(参考訳): キューイングネットワークルーティング最適化におけるシミュレーション駆動強化学習
- Authors: Fatima Al-Ani, Molly Wang, Jevon Charles, Aaron Ong, Joshua Forday, Vinayak Modi,
- Abstract要約: 本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。
我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。
包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study focuses on the development of a simulation-driven reinforcement learning (RL) framework for optimizing routing decisions in complex queueing network systems, with a particular emphasis on manufacturing and communication applications. Recognizing the limitations of traditional queueing methods, which often struggle with dynamic, uncertain environments, we propose a robust RL approach leveraging Deep Deterministic Policy Gradient (DDPG) combined with Dyna-style planning (Dyna-DDPG). The framework includes a flexible and configurable simulation environment capable of modeling diverse queueing scenarios, disruptions, and unpredictable conditions. Our enhanced Dyna-DDPG implementation incorporates separate predictive models for next-state transitions and rewards, significantly improving stability and sample efficiency. Comprehensive experiments and rigorous evaluations demonstrate the framework's capability to rapidly learn effective routing policies that maintain robust performance under disruptions and scale effectively to larger network sizes. Additionally, we highlight strong software engineering practices employed to ensure reproducibility and maintainability of the framework, enabling practical deployment in real-world scenarios.
- Abstract(参考訳): 本研究では,複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するシミュレーション駆動強化学習(RL)フレームワークの開発に着目する。
動的で不確実な環境に苦しむ従来の待ち行列手法の限界を認識し,Dynaスタイルの計画(Dyna-DDPG)とDeep Deterministic Policy Gradient(DDPG)を併用した堅牢なRLアプローチを提案する。
フレームワークにはフレキシブルで構成可能なシミュレーション環境が含まれており、さまざまなキューシナリオ、障害、予測不可能な条件をモデル化することができる。
我々の拡張Dyna-DDPG実装は、次の状態遷移と報酬の予測モデルを別々に組み込んでおり、安定性とサンプル効率を大幅に改善している。
包括的な実験と厳密な評価は、破壊下で堅牢なパフォーマンスを維持し、より大きなネットワークサイズに効果的にスケールする効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示す。
さらに、フレームワークの再現性と保守性を確保するために使用される強力なソフトウェアエンジニアリングプラクティスを強調し、現実のシナリオに実践的なデプロイを可能にする。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution [0.35932002706017546]
メタオーダーの最適実行における強化学習の利用について検討する。
目的は、実装不足と市場への影響を最小限に抑えながら、段階的に大規模な注文を実行することである。
我々はキュー・リフレクティブ・モデルを用いて現実的でトラクタブルなリミットオーダーブックシミュレーションを生成する。
論文 参考訳(メタデータ) (2025-11-19T09:26:23Z) - A Negotiation-Based Multi-Agent Reinforcement Learning Approach for Dynamic Scheduling of Reconfigurable Manufacturing Systems [0.0]
本研究では,RMS設定のソフトプランニングにおける動的スケジューリングにマルチエージェント強化学習(MARL)を適用した。
提案フレームワークでは,集中訓練で訓練された深層Qnetwork(DQN)エージェントが,機械故障や再構成遅延などのイベントに適応しながら,最適なジョブ割り当てをリアルタイムで学習する。
論文 参考訳(メタデータ) (2025-11-11T00:04:35Z) - Adaptive Reinforcement Learning for Dynamic Configuration Allocation in Pre-Production Testing [4.370892281528124]
本稿では, コンフィグレーション割り当てを逐次決定問題として再放送する, 新たな強化学習フレームワークを提案する。
提案手法は,Q-ラーニングをシミュレーション結果とリアルタイムフィードバックを融合したハイブリッド報酬設計と統合する最初の方法である。
論文 参考訳(メタデータ) (2025-10-02T05:12:28Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Robustness of Reinforcement Learning-Based Traffic Signal Control under Incidents: A Comparative Study [4.731967623788092]
強化学習に基づく交通信号制御 (RL-TSC) が都市移動性向上のための有望なアプローチとして浮上している。
本研究では,動的インシデントシナリオ下でのRL-TSC手法のトレーニングと評価を行うオープンソースSUMOベースのシミュレーションフレームワークであるT-REXを紹介する。
論文 参考訳(メタデータ) (2025-06-16T08:15:29Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - A Constraint Enforcement Deep Reinforcement Learning Framework for
Optimal Energy Storage Systems Dispatch [0.0]
エネルギー貯蔵システム(ESS)の最適供給は、動的価格の変動、需要消費、再生可能エネルギーの発生による深刻な課題を提起する。
ディープニューラルネットワーク(DNN)の一般化機能を活用することで、ディープ強化学習(DRL)アルゴリズムは、分散ネットワークの性質に適応して応答する良質な制御モデルを学ぶことができる。
本稿では,オンライン操作における環境や行動空間の運用制約を厳格に実施しながら,継続的な行動空間を効果的に処理するDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-26T17:12:04Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - FORLORN: A Framework for Comparing Offline Methods and Reinforcement
Learning for Optimization of RAN Parameters [0.0]
本稿では,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。
このフレームワークでは、ドメイン固有の知識を持たないRLエージェントが、静的シナリオにおけるオフライン最適化に適合するように、Radio Access Network(RAN)パラメータを効率的に調整する方法を学習できることを実証する。
論文 参考訳(メタデータ) (2022-09-08T12:58:09Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。