論文の概要: Constrained Model-Free Reinforcement Learning for Process Optimization
- arxiv url: http://arxiv.org/abs/2011.07925v2
- Date: Wed, 14 Apr 2021 12:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 01:09:02.921133
- Title: Constrained Model-Free Reinforcement Learning for Process Optimization
- Title(参考訳): 制約付きモデルフリー強化学習によるプロセス最適化
- Authors: Elton Pan, Panagiotis Petsagkourakis, Max Mowbray, Dongda Zhang,
Antonio del Rio-Chanona
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a control approach that can handle nonlinear
stochastic optimal control problems. However, despite the promise exhibited, RL
has yet to see marked translation to industrial practice primarily due to its
inability to satisfy state constraints. In this work we aim to address this
challenge. We propose an 'oracle'-assisted constrained Q-learning algorithm
that guarantees the satisfaction of joint chance constraints with a high
probability, which is crucial for safety critical tasks. To achieve this,
constraint tightening (backoffs) are introduced and adjusted using Broyden's
method, hence making them self-tuned. This results in a general methodology
that can be imbued into approximate dynamic programming-based algorithms to
ensure constraint satisfaction with high probability. Finally, we present case
studies that analyze the performance of the proposed approach and compare this
algorithm with model predictive control (MPC). The favorable performance of
this algorithm signifies a step toward the incorporation of RL into real world
optimization and control of engineering systems, where constraints are
essential in ensuring safety.
- Abstract(参考訳): 強化学習 (rl) は非線形確率的最適制御問題を扱うための制御手法である。
しかし、その約束にもかかわらず、RLは国家の制約を満たすことができないため、産業的な実践への顕著な翻訳をまだ見ていない。
この作業では、この問題に対処することを目指しています。
そこで本研究では,協調的確率制約の満足度を高い確率で保証する「オラクル」支援制約付きq-learningアルゴリズムを提案する。
これを実現するために、ブロイデン法を用いて制約引き締め(バックオフ)を導入し、調整し、自己調整する。
これにより、近似動的プログラミングベースのアルゴリズムに埋め込むことができ、高い確率で制約満足度を確保することができる。
最後に,提案手法の性能を解析し,このアルゴリズムをモデル予測制御(mpc)と比較するケーススタディを提案する。
このアルゴリズムの好ましい性能は、安全確保に制約が不可欠である実世界の工学システムの最適化と制御にRLを組み込むことへの一歩である。
関連論文リスト
- SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-04T10:17:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。