論文の概要: Distributional Reinforcement Learning for Scheduling of (Bio)chemical
Production Processes
- arxiv url: http://arxiv.org/abs/2203.00636v1
- Date: Tue, 1 Mar 2022 17:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 15:58:26.724828
- Title: Distributional Reinforcement Learning for Scheduling of (Bio)chemical
Production Processes
- Title(参考訳): 生物化学生産プロセスのスケジューリングのための分布強化学習
- Authors: Max Mowbray, Dongda Zhang, Ehecatl Antonio Del Rio Chanona
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、最近、プロセスシステム工学と制御コミュニティから大きな注目を集めている。
本稿では,生産スケジューリング問題に共通して課される優先的制約と解離的制約に対処するRL手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has recently received significant attention from
the process systems engineering and control communities. Recent works have
investigated the application of RL to identify optimal scheduling decision in
the presence of uncertainty. In this work, we present a RL methodology to
address precedence and disjunctive constraints as commonly imposed on
production scheduling problems. This work naturally enables the optimization of
risk-sensitive formulations such as the conditional value-at-risk (CVaR), which
are essential in realistic scheduling processes. The proposed strategy is
investigated thoroughly in a single-stage, parallel batch production
environment, and benchmarked against mixed integer linear programming (MILP)
strategies. We show that the policy identified by our approach is able to
account for plant uncertainties in online decision-making, with expected
performance comparable to existing MILP methods. Additionally, the framework
gains the benefits of optimizing for risk-sensitive measures, and identifies
decisions orders of magnitude faster than the most efficient optimization
approaches. This promises to mitigate practical issues and ease in handling
realizations of process uncertainty in the paradigm of online production
scheduling.
- Abstract(参考訳): 強化学習(RL)は、最近、プロセスシステム工学と制御コミュニティから大きな注目を集めている。
近年の研究では、不確実性の存在下での最適スケジューリング決定のためのRLの適用について検討されている。
本稿では,生産スケジューリング問題に共通して課される優先的制約と解離的制約に対処するRL手法を提案する。
この研究は、現実的なスケジューリングプロセスにおいて不可欠な条件付き値-リスク(CVaR)のようなリスクに敏感な定式化の最適化を可能にする。
提案手法を単段並列バッチ生産環境で徹底的に検討し,milp(mixed integer linear programming)戦略に対するベンチマークを行った。
提案手法は,既存のMILP手法に匹敵する性能で,オンライン意思決定におけるプラントの不確実性を考慮できることを示す。
さらに、このフレームワークはリスクに敏感な尺度を最適化する利点を享受し、最も効率的な最適化アプローチよりもはるかに早く意思決定の順序を識別する。
これは、実践的な問題を緩和し、オンライン生産スケジューリングのパラダイムにおけるプロセスの不確実性の実現の処理を容易にすることを約束します。
関連論文リスト
- Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Timing Process Interventions with Causal Inference and Reinforcement
Learning [2.919859121836811]
本稿では,オンラインRLを生かした合成データを用いた時間プロセス介入実験とCIとの比較について述べる。
我々の実験によると、RLのポリシーはCIのポリシーよりも優れており、同時に堅牢である。
CIとは異なり、修正されていないオンラインRLアプローチは、次のベストアクティビティレコメンデーションなど、より一般的なPresPM問題にも適用することができる。
論文 参考訳(メタデータ) (2023-06-07T10:02:16Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-04T10:17:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。