論文の概要: Control invariant set enhanced reinforcement learning for process
control: improved sampling efficiency and guaranteed stability
- arxiv url: http://arxiv.org/abs/2304.05509v1
- Date: Tue, 11 Apr 2023 21:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:46:04.910516
- Title: Control invariant set enhanced reinforcement learning for process
control: improved sampling efficiency and guaranteed stability
- Title(参考訳): プロセス制御のための制御不変セット強化強化学習:サンプリング効率の向上と安定性保証
- Authors: Song Bo, Xunyuan Yin, Jinfeng Liu (University of Alberta)
- Abstract要約: この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
このアプローチは、オフラインとオンラインの2つの学習段階で構成されている。
その結果,オフライントレーニングにおけるサンプリング効率が向上し,オンライン実装におけるクローズドループ安定性が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is an area of significant research interest, and
safe RL in particular is attracting attention due to its ability to handle
safety-driven constraints that are crucial for real-world applications of RL
algorithms. This work proposes a novel approach to RL training, called control
invariant set (CIS) enhanced RL, which leverages the benefits of CIS to improve
stability guarantees and sampling efficiency. The approach consists of two
learning stages: offline and online. In the offline stage, CIS is incorporated
into the reward design, initial state sampling, and state reset procedures. In
the online stage, RL is retrained whenever the state is outside of CIS, which
serves as a stability criterion. A backup table that utilizes the explicit form
of CIS is obtained to ensure the online stability. To evaluate the proposed
approach, we apply it to a simulated chemical reactor. The results show a
significant improvement in sampling efficiency during offline training and
closed-loop stability in the online implementation.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は重要な研究分野であり、特に安全なRLは、RLアルゴリズムの現実的な応用に不可欠な安全駆動的制約を扱う能力から注目されている。
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案し、CISの利点を活用して安定性の保証とサンプリング効率を向上させる。
このアプローチは、オフラインとオンラインの2つの学習段階で構成される。
オフラインの段階では、CISは報酬設計、初期状態サンプリング、状態リセット手順に組み込まれる。
オンライン段階では、状態がCISの外にあるときは常にRLが再訓練され、安定性基準として機能する。
CISの明示的な形式を利用するバックアップテーブルを取得し、オンライン安定性を確保する。
提案手法を評価するため,シミュレーション化学反応器に適用する。
その結果,オフライントレーニングにおけるサンプリング効率が向上し,オンライン実装におけるクローズドループ安定性が向上した。
関連論文リスト
- Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Control invariant set enhanced safe reinforcement learning: improved
sampling efficiency, guaranteed stability and robustness [0.0]
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
提案手法のロバスト性は不確実性の存在下で検討される。
その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証が得られた。
論文 参考訳(メタデータ) (2023-05-24T22:22:19Z) - Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization [17.322284328945194]
強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されている。
我々は $textbfU$ncertainty $textbfS$et $textbfR$egularizer (USR) という新しい正規化器を提案する。
論文 参考訳(メタデータ) (2022-07-05T12:56:08Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Remote Electrical Tilt Optimization via Safe Reinforcement Learning [1.2599533416395765]
リモート電気ティルト(RET)最適化は、ネットワークのキーパフォーマンス指標(KPI)を最適化するために、基地局(BS)アンテナの垂直傾き角を調整する効率的な方法である。
本研究では、傾き制御戦略の学習を目的とした安全強化学習(SRL)フレームワークにおけるRET最適化問題をモデル化する。
実験の結果,提案手法は安全で改良された傾き更新ポリシーを学習でき,信頼性が高く,現実のネットワーク展開の可能性も高いことがわかった。
論文 参考訳(メタデータ) (2020-10-12T16:46:40Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。