論文の概要: Model-Free Learning of Safe yet Effective Controllers
- arxiv url: http://arxiv.org/abs/2103.14600v1
- Date: Fri, 26 Mar 2021 17:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:27:17.245244
- Title: Model-Free Learning of Safe yet Effective Controllers
- Title(参考訳): 安全かつ効果的なコントローラのモデルフリー学習
- Authors: Alper Kamil Bozkurt, Yu Wang, Miroslav Pajic
- Abstract要約: 私達はまた有効な安全な制御方針を学ぶ問題を研究します。
まず,安全を確保する確率を最大化する方針を学習するモデルフリー強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.876140218511157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of learning safe control policies that
are also effective -- i.e., maximizing the probability of satisfying the linear
temporal logic (LTL) specification of the task, and the discounted reward
capturing the (classic) control performance. We consider unknown environments
that can be modeled as Markov decision processes (MDPs). We propose a
model-free reinforcement learning algorithm that learns a policy that first
maximizes the probability of ensuring the safety, then the probability of
satisfying the given LTL specification and lastly, the sum of discounted
Quality of Control (QoC) rewards. Finally, we illustrate the applicability of
our RL-based approach on a case study.
- Abstract(参考訳): 本稿では,タスクの線形時間論理(LTL)仕様を満たす確率の最大化と,(古典的な)制御性能をキャプチャする報酬の割引化という,同時に有効な安全な制御ポリシーを学習する問題について検討する。
我々はマルコフ決定プロセス(MDP)としてモデル化できる未知の環境を考える。
本稿では,まず安全を確保する確率を最大化し,与えられたltl仕様を満足する確率を最大化し,最後にqoc(ディスカウントド・クオリティ・オブ・コントロール)報酬を合計するポリシを学習するモデルフリー強化学習アルゴリズムを提案する。
最後に,ケーススタディにおけるRLに基づくアプローチの適用性について述べる。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Sample Efficient Model-free Reinforcement Learning from LTL
Specifications with Optimality Guarantees [17.69385864791265]
未知のシステムに対して最適なポリシーを効率的に学習するモデルフリー強化学習(RL)手法を提案する。
また、最適性を確保するために鍵パラメータの選択に関する理論的結果も改善した。
論文 参考訳(メタデータ) (2023-05-02T12:57:05Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。