論文の概要: Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty
- arxiv url: http://arxiv.org/abs/2006.02750v1
- Date: Thu, 4 Jun 2020 10:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:42:01.642956
- Title: Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty
- Title(参考訳): 不確実性下における動的最適化のための制約付き強化学習
- Authors: Panagiotis Petsagkourakis, Ilya Orson Sandoval, Eric Bradford, Dongda
Zhang, Ehecatl Antonio del R\'io Chanona
- Abstract要約: 動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 1.5797349391370117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic real-time optimization (DRTO) is a challenging task due to the fact
that optimal operating conditions must be computed in real time. The main
bottleneck in the industrial application of DRTO is the presence of
uncertainty. Many stochastic systems present the following obstacles: 1)
plant-model mismatch, 2) process disturbances, 3) risks in violation of process
constraints. To accommodate these difficulties, we present a constrained
reinforcement learning (RL) based approach. RL naturally handles the process
uncertainty by computing an optimal feedback policy. However, no state
constraints can be introduced intuitively. To address this problem, we present
a chance-constrained RL methodology. We use chance constraints to guarantee the
probabilistic satisfaction of process constraints, which is accomplished by
introducing backoffs, such that the optimal policy and backoffs are computed
simultaneously. Backoffs are adjusted using the empirical cumulative
distribution function to guarantee the satisfaction of a joint chance
constraint. The advantage and performance of this strategy are illustrated
through a stochastic dynamic bioprocess optimization problem, to produce
sustainable high-value bioproducts.
- Abstract(参考訳): 動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは不確実性の存在である。
多くの確率系は以下の障害を示す。
1) 植物モデルミスマッチ
2)プロセス障害。
3) プロセスの制約に違反するリスク。
これらの課題に対処するため,制約付き強化学習(RL)に基づくアプローチを提案する。
RLは、最適フィードバックポリシーを計算することによって、プロセスの不確実性を自然に処理する。
しかし、状態制約は直感的に導入できない。
この問題に対処するため,確率制約付きRL手法を提案する。
プロセス制約の確率的満足度を保証するために、最適なポリシーとバックオフが同時に計算されるように、バックオフを導入することで達成される。
経験的累積分布関数を用いてバックオフを調整し、共同機会制約の満足度を保証する。
この戦略の利点と性能は、持続可能な高価値バイオ製品を生み出すための確率的動的バイオプロセス最適化問題によって示される。
関連論文リスト
- Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Distributional Reinforcement Learning for Scheduling of (Bio)chemical
Production Processes [0.0]
強化学習(Reinforcement Learning, RL)は、最近、プロセスシステム工学と制御コミュニティから大きな注目を集めている。
本稿では,生産スケジューリング問題に共通して課される優先的制約と解離的制約に対処するRL手法を提案する。
論文 参考訳(メタデータ) (2022-03-01T17:25:40Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。