論文の概要: Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.12953v1
- Date: Thu, 25 Nov 2021 07:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:06:06.707354
- Title: Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning
- Title(参考訳): モデルフリー制約強化学習におけるゼロコンストラクション違反政策の学習
- Authors: Haitong Ma, Changliu Liu, Shengbo Eben Li, Sifa Zheng, Wenchao Sun,
Jianyu Chen
- Abstract要約: 本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
- 参考スコア(独自算出の注目度): 7.138691584246846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the trial-and-error mechanism of reinforcement learning (RL), a notorious
contradiction arises when we expect to learn a safe policy: how to learn a safe
policy without enough data and prior model about the dangerous region? Existing
methods mostly use the posterior penalty for dangerous actions, which means
that the agent is not penalized until experiencing danger. This fact causes
that the agent cannot learn a zero-violation policy even after convergence.
Otherwise, it would not receive any penalty and lose the knowledge about
danger. In this paper, we propose the safe set actor-critic (SSAC) algorithm,
which confines the policy update using safety-oriented energy functions, or the
safety indexes. The safety index is designed to increase rapidly for
potentially dangerous actions, which allows us to locate the safe set on the
action space, or the control safe set. Therefore, we can identify the dangerous
actions prior to taking them, and further obtain a zero constraint-violation
policy after convergence.We claim that we can learn the energy function in a
model-free manner similar to learning a value function. By using the energy
function transition as the constraint objective, we formulate a constrained RL
problem. We prove that our Lagrangian-based solutions make sure that the
learned policy will converge to the constrained optimum under some assumptions.
The proposed algorithm is evaluated on both the complex simulation environments
and a hardware-in-loop (HIL) experiment with a real controller from the
autonomous vehicle. Experimental results suggest that the converged policy in
all environments achieves zero constraint violation and comparable performance
with model-based baselines.
- Abstract(参考訳): 強化学習(rl)の試行錯誤メカニズムでは、安全ポリシーを学ぶことを期待すると、悪名高い矛盾が生じます。
現行の方法は、ほとんどが危険に晒されるまでペナルティを課さない危険な行動のために後方ペナルティを使用する。
この事実は、エージェントが収束後もゼロ違反ポリシーを学習できない原因である。
そうでなければ、いかなる罰も受けず、危険に関する知識を失うことになる。
本稿では,安全指向エネルギー関数や安全指標を用いたポリシー更新を限定したsafe set actor-critic (ssac)アルゴリズムを提案する。
安全指数は、潜在的に危険なアクションに対して急速に増加するように設計されており、アクション空間の安全なセットや制御の安全なセットを見つけることができる。
したがって, それらを取る前に危険行動を特定することができ, さらに収束後の制約違反政策を得ることができ, 値関数の学習と同様のモデルフリーな方法でエネルギー関数を学習できると主張している。
エネルギー関数遷移を制約目的として使用することにより、制約付きRL問題を定式化する。
ラグランジアンに基づく我々の解は、学習されたポリシーがいくつかの仮定の下で制約された最適値に収束することを証明している。
提案アルゴリズムは, 複雑なシミュレーション環境と, ハードウェア・イン・ループ(HIL)実験の両方において, 自律走行車からの実際の制御器を用いて評価する。
実験結果から,すべての環境における収束ポリシは制約違反をゼロとし,モデルベースベースラインに匹敵する性能を実現することが示唆された。
関連論文リスト
- Do No Harm: A Counterfactual Approach to Safe Reinforcement Learning [5.862025534776996]
制御のための強化学習は、環境の不確実性や複雑な表現を考慮に入れた豊かなフィードバックポリシーを学ぶ能力によって、ますます人気が高まっている。
このような方法では、もしエージェントが入居しているか、あるいは訪れなければならない場合、制約違反が避けられない状態であるなら、どの程度罰せられるべきかは明らかでない。
我々は,この課題に対して,既定の安全政策と比較して,学習した政策の事実的害に対する制約を定式化することによって対処する。
哲学的な意味では、この定式化は学習者にそれが引き起こした制約違反を罰するだけであり、実際的な意味では最適な制御問題の実現可能性を維持する。
論文 参考訳(メタデータ) (2024-05-19T20:33:21Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Model-based Chance-Constrained Reinforcement Learning via Separated
Proportional-Integral Lagrangian [5.686699342802045]
本研究では、不確実性の下でRL安全性を高めるために、分離された比例積分ラグランジアンアルゴリズムを提案する。
本稿では,自動車追従シミュレーションにおいて,RLポリシーの振動と保守性を低減できることを示す。
論文 参考訳(メタデータ) (2021-08-26T07:34:14Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。