論文の概要: Policy-Based Reinforcement Learning with Action Masking for Dynamic Job Shop Scheduling under Uncertainty: Handling Random Arrivals and Machine Failures
- arxiv url: http://arxiv.org/abs/2601.09293v1
- Date: Wed, 14 Jan 2026 08:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.343942
- Title: Policy-Based Reinforcement Learning with Action Masking for Dynamic Job Shop Scheduling under Uncertainty: Handling Random Arrivals and Machine Failures
- Title(参考訳): 不確実性下での動的ジョブショップスケジューリングのためのアクションマスキングによるポリシーに基づく強化学習:ランダム条件と機械故障の扱い
- Authors: Sofiene Lassoued, Stefan Lier, Andreas Schwung,
- Abstract要約: 本稿では、不確実性の下で動的ジョブショップスケジューリング問題を解決するための新しいフレームワークを提案する。
提案手法は,スケジュール環境を表現するためにColoured Timed Petri Netsを用いて,モデルに基づくパラダイムに従う。
我々は,動的JSSPベンチマークの実験を行い,提案手法が従来型の最小化とルールベースのアプローチを,メイスパンの観点から一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 3.2880869992413246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel framework for solving Dynamic Job Shop Scheduling Problems under uncertainty, addressing the challenges introduced by stochastic job arrivals and unexpected machine breakdowns. Our approach follows a model-based paradigm, using Coloured Timed Petri Nets to represent the scheduling environment, and Maskable Proximal Policy Optimization to enable dynamic decision-making while restricting the agent to feasible actions at each decision point. To simulate realistic industrial conditions, dynamic job arrivals are modeled using a Gamma distribution, which captures complex temporal patterns such as bursts, clustering, and fluctuating workloads. Machine failures are modeled using a Weibull distribution to represent age-dependent degradation and wear-out dynamics. These stochastic models enable the framework to reflect real-world manufacturing scenarios better. In addition, we study two action-masking strategies: a non-gradient approach that overrides the probabilities of invalid actions, and a gradient-based approach that assigns negative gradients to invalid actions within the policy network. We conduct extensive experiments on dynamic JSSP benchmarks, demonstrating that our method consistently outperforms traditional heuristic and rule-based approaches in terms of makespan minimization. The results highlight the strength of combining interpretable Petri-net-based models with adaptive reinforcement learning policies, yielding a resilient, scalable, and explainable framework for real-time scheduling in dynamic and uncertain manufacturing environments.
- Abstract(参考訳): 本稿では,不確実性の下での動的ジョブショップスケジューリング問題の解決のための新しいフレームワークを提案する。
提案手法は,スケジューリング環境を表現するためのColoured Timed Petri Netsと,各決定点におけるエージェントの実行可能な動作を制限するとともに,動的意思決定を可能にするMaskable Proximal Policy Optimizationを用いたモデルベースパラダイムに従う。
現実的な産業条件をシミュレートするために、動的ジョブの到着は、バーストやクラスタリング、変動するワークロードなどの複雑な時間パターンをキャプチャするGammaディストリビューションを使用してモデル化される。
マシンの故障は、年齢依存の劣化と摩耗のダイナミクスを表現するためにWeibull分布を用いてモデル化される。
これらの確率的モデルにより、このフレームワークは実世界の製造シナリオをより良く反映することができる。
さらに、無効行為の確率をオーバーライドする非段階的アプローチと、ポリシーネットワーク内の無効行為に負の勾配を割り当てる勾配に基づくアプローチの2つのアクションマスキング戦略について検討する。
我々は,動的JSSPベンチマークの広範な実験を行い,提案手法が従来のヒューリスティックな手法とルールベースの手法を,メイスパンの最小化の観点から一貫して上回っていることを示す。
その結果、解釈可能なペトリネットモデルと適応的な強化学習ポリシーを組み合わせることで、動的で不確実な製造環境におけるリアルタイムスケジューリングのための弾力的でスケーラブルで説明可能なフレームワークが得られるという強みが浮き彫りになった。
関連論文リスト
- Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution [0.35932002706017546]
メタオーダーの最適実行における強化学習の利用について検討する。
目的は、実装不足と市場への影響を最小限に抑えながら、段階的に大規模な注文を実行することである。
我々はキュー・リフレクティブ・モデルを用いて現実的でトラクタブルなリミットオーダーブックシミュレーションを生成する。
論文 参考訳(メタデータ) (2025-11-19T09:26:23Z) - Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。
本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。
混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文 参考訳(メタデータ) (2025-02-19T05:30:46Z) - Correct-by-Construction Control for Stochastic and Uncertain Dynamical
Models via Formal Abstractions [44.99833362998488]
我々は、様々なモデリングの前提の下でこの問題を解決するために使用できる抽象フレームワークを開発する。
我々は、与えられた仕様を満たすための保証とともに、iMDPの最適ポリシーを計算するために最先端の検証技術を使用します。
そして、このポリシーを構築によって、これらの保証が動的モデルに受け継がれるフィードバックコントローラに改良できることを示します。
論文 参考訳(メタデータ) (2023-11-16T11:03:54Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。