論文の概要: Chance Constrained Policy Optimization for Process Control and
Optimization
- arxiv url: http://arxiv.org/abs/2008.00030v2
- Date: Thu, 17 Dec 2020 12:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 15:06:58.513744
- Title: Chance Constrained Policy Optimization for Process Control and
Optimization
- Title(参考訳): プロセス制御と最適化のための確率制約ポリシー最適化
- Authors: Panagiotis Petsagkourakis, Ilya Orson Sandoval, Eric Bradford,
Federico Galvanin, Dongda Zhang and Ehecatl Antonio del Rio-Chanona
- Abstract要約: 1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.4908563154226955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chemical process optimization and control are affected by 1) plant-model
mismatch, 2) process disturbances, and 3) constraints for safe operation.
Reinforcement learning by policy optimization would be a natural way to solve
this due to its ability to address stochasticity, plant-model mismatch, and
directly account for the effect of future uncertainty and its feedback in a
proper closed-loop manner; all without the need of an inner optimization loop.
One of the main reasons why reinforcement learning has not been considered for
industrial processes (or almost any engineering application) is that it lacks a
framework to deal with safety critical constraints. Present algorithms for
policy optimization use difficult-to-tune penalty parameters, fail to reliably
satisfy state constraints or present guarantees only in expectation. We propose
a chance constrained policy optimization (CCPO) algorithm which guarantees the
satisfaction of joint chance constraints with a high probability - which is
crucial for safety critical tasks. This is achieved by the introduction of
constraint tightening (backoffs), which are computed simultaneously with the
feedback policy. Backoffs are adjusted with Bayesian optimization using the
empirical cumulative distribution function of the probabilistic constraints,
and are therefore self-tuned. This results in a general methodology that can be
imbued into present policy optimization algorithms to enable them to satisfy
joint chance constraints with high probability. We present case studies that
analyze the performance of the proposed approach.
- Abstract(参考訳): 化学プロセスの最適化と制御は影響を受けます
1) 植物モデルミスマッチ
2)プロセス障害、及び
3)安全運転の制約。
政策最適化による強化学習は、確率性、プラントモデルミスマッチに対処する能力、そして将来の不確実性とそのフィードバックを適切な閉ループ方式で直接的に考慮する能力により、この問題を解決する自然な方法である。
強化学習が産業プロセス(あるいはほとんどすべてのエンジニアリングアプリケーション)で考慮されていない主な理由の1つは、安全クリティカルな制約に対処するためのフレームワークがないことである。
政策最適化の現在のアルゴリズムは、困難なペナルティパラメータを使用し、状態制約を確実に満たさないか、あるいは期待された場合にのみ保証を提示する。
本稿では,安全上の重要な課題に欠かせない連関制約の満足度を高い確率で保証する確率制約付きポリシー最適化(CCPO)アルゴリズムを提案する。
これは、フィードバックポリシーと同時に計算される制約引き締め(バックオフ)の導入によって達成される。
バックオフは確率的制約の経験的累積分布関数を用いてベイズ最適化で調整され、したがって自己調整される。
これにより、現在のポリシー最適化アルゴリズムに組み込むことができる一般的な方法論が実現され、高い確率で共同確率制約を満たすことができる。
本稿では,提案手法の性能分析を行うケーススタディを提案する。
関連論文リスト
- SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Constrained Variational Policy Optimization for Safe Reinforcement
Learning [40.38842532850959]
安全強化学習は、安全クリティカルなアプリケーションにデプロイする前に、一定の制約を満たすポリシーを学ぶことを目的としている。
主要な制約付き最適化フレームワークとしての原始双対は不安定な問題に悩まされ、最適性の保証が欠如している。
本稿では,新しい確率的推論の観点から問題を克服し,安全政策を学習するための期待最大化方式を提案する。
論文 参考訳(メタデータ) (2022-01-28T04:24:09Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-04T10:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。