Fugu-MT 論文翻訳(概要): Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization

論文の概要: Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization

arxiv url: http://arxiv.org/abs/2507.18795v1
Date: Thu, 24 Jul 2025 20:32:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-28 16:16:48.750453
Title: Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization
Title（参考訳）: キューイングネットワークルーティング最適化におけるシミュレーション駆動強化学習
Authors: Fatima Al-Ani, Molly Wang, Jevon Charles, Aaron Ong, Joshua Forday, Vinayak Modi,
Abstract要約: 本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study focuses on the development of a simulation-driven reinforcement learning (RL) framework for optimizing routing decisions in complex queueing network systems, with a particular emphasis on manufacturing and communication applications. Recognizing the limitations of traditional queueing methods, which often struggle with dynamic, uncertain environments, we propose a robust RL approach leveraging Deep Deterministic Policy Gradient (DDPG) combined with Dyna-style planning (Dyna-DDPG). The framework includes a flexible and configurable simulation environment capable of modeling diverse queueing scenarios, disruptions, and unpredictable conditions. Our enhanced Dyna-DDPG implementation incorporates separate predictive models for next-state transitions and rewards, significantly improving stability and sample efficiency. Comprehensive experiments and rigorous evaluations demonstrate the framework's capability to rapidly learn effective routing policies that maintain robust performance under disruptions and scale effectively to larger network sizes. Additionally, we highlight strong software engineering practices employed to ensure reproducibility and maintainability of the framework, enabling practical deployment in real-world scenarios.
Abstract（参考訳）: 本研究では,複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するシミュレーション駆動強化学習(RL)フレームワークの開発に着目する。動的で不確実な環境に苦しむ従来の待ち行列手法の限界を認識し,Dynaスタイルの計画(Dyna-DDPG)とDeep Deterministic Policy Gradient(DDPG)を併用した堅牢なRLアプローチを提案する。フレームワークにはフレキシブルで構成可能なシミュレーション環境が含まれており、さまざまなキューシナリオ、障害、予測不可能な条件をモデル化することができる。我々の拡張Dyna-DDPG実装は、次の状態遷移と報酬の予測モデルを別々に組み込んでおり、安定性とサンプル効率を大幅に改善している。包括的な実験と厳密な評価は、破壊下で堅牢なパフォーマンスを維持し、より大きなネットワークサイズに効果的にスケールする効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示す。さらに、フレームワークの再現性と保守性を確保するために使用される強力なソフトウェアエンジニアリングプラクティスを強調し、現実のシナリオに実践的なデプロイを可能にする。

関連論文リスト

Robustness of Reinforcement Learning-Based Traffic Signal Control under Incidents: A Comparative Study [4.731967623788092]
強化学習に基づく交通信号制御 (RL-TSC) が都市移動性向上のための有望なアプローチとして浮上している。本研究では,動的インシデントシナリオ下でのRL-TSC手法のトレーニングと評価を行うオープンソースSUMOベースのシミュレーションフレームワークであるT-REXを紹介する。
論文参考訳（メタデータ） (2025-06-16T08:15:29Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。 OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-10T14:28:18Z)
Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文参考訳（メタデータ） (2024-09-05T17:53:54Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
A Constraint Enforcement Deep Reinforcement Learning Framework for Optimal Energy Storage Systems Dispatch [0.0]
エネルギー貯蔵システム(ESS)の最適供給は、動的価格の変動、需要消費、再生可能エネルギーの発生による深刻な課題を提起する。ディープニューラルネットワーク(DNN)の一般化機能を活用することで、ディープ強化学習(DRL)アルゴリズムは、分散ネットワークの性質に適応して応答する良質な制御モデルを学ぶことができる。本稿では,オンライン操作における環境や行動空間の運用制約を厳格に実施しながら,継続的な行動空間を効果的に処理するDRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-26T17:12:04Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文参考訳（メタデータ） (2022-10-23T00:45:05Z)
FORLORN: A Framework for Comparing Offline Methods and Reinforcement Learning for Optimization of RAN Parameters [0.0]
本稿では,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。このフレームワークでは、ドメイン固有の知識を持たないRLエージェントが、静的シナリオにおけるオフライン最適化に適合するように、Radio Access Network(RAN)パラメータを効率的に調整する方法を学習できることを実証する。
論文参考訳（メタデータ） (2022-09-08T12:58:09Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。 textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文参考訳（メタデータ） (2020-03-21T00:10:29Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。