論文の概要: Assured Learning-enabled Autonomy: A Metacognitive Reinforcement
Learning Framework
- arxiv url: http://arxiv.org/abs/2103.12558v1
- Date: Tue, 23 Mar 2021 14:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:03:23.226856
- Title: Assured Learning-enabled Autonomy: A Metacognitive Reinforcement
Learning Framework
- Title(参考訳): 学習可能な自律性を保証するメタ認知強化学習フレームワーク
- Authors: Aquib Mustafa, Majid Mazouchi, Subramanya Nageshrao, Hamidreza Modares
- Abstract要約: 事前指定された報酬機能を持つ強化学習(rl)エージェントは、さまざまな状況で安全性を保証できない。
本稿では,メタ認知学習機能を備えたRLアルゴリズムを用いて,自律制御フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.427447378048202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents with pre-specified reward functions cannot
provide guaranteed safety across variety of circumstances that an uncertain
system might encounter. To guarantee performance while assuring satisfaction of
safety constraints across variety of circumstances, an assured autonomous
control framework is presented in this paper by empowering RL algorithms with
metacognitive learning capabilities. More specifically, adapting the reward
function parameters of the RL agent is performed in a metacognitive
decision-making layer to assure the feasibility of RL agent. That is, to assure
that the learned policy by the RL agent satisfies safety constraints specified
by signal temporal logic while achieving as much performance as possible. The
metacognitive layer monitors any possible future safety violation under the
actions of the RL agent and employs a higher-layer Bayesian RL algorithm to
proactively adapt the reward function for the lower-layer RL agent. To minimize
the higher-layer Bayesian RL intervention, a fitness function is leveraged by
the metacognitive layer as a metric to evaluate success of the lower-layer RL
agent in satisfaction of safety and liveness specifications, and the
higher-layer Bayesian RL intervenes only if there is a risk of lower-layer RL
failure. Finally, a simulation example is provided to validate the
effectiveness of the proposed approach.
- Abstract(参考訳): 所定の報酬関数を持つ強化学習(RL)エージェントは、不確実なシステムが遭遇する可能性のあるさまざまな状況において、保証された安全を提供することはできない。
各種状況における安全制約の満足度を確保しつつ,性能を保証するため,メタ認知学習機能を備えたRLアルゴリズムを応用し,自律制御フレームワークを提案する。
より具体的には、RLエージェントの報酬関数パラメータをメタ認知的意思決定層に適応させ、RLエージェントの実現性を保証する。
すなわち、RLエージェントによる学習ポリシーは、信号時間論理によって規定された安全制約を満たすとともに、可能な限り多くの性能を達成する。
メタ認知層は、RLエージェントの作用の下で将来の安全違反を監視し、上位層のベイズRLアルゴリズムを用いて、下位層のRLエージェントに対する報酬関数を積極的に適応させる。
高層ベイズRLの介入を最小限に抑えるために、メタ認知層により適合機能を利用し、安全性と生活性に満足して低層RLエージェントの成功を評価するとともに、低層ベイズRL故障のリスクがある場合にのみ、高層ベイズRLが介入する。
最後に,提案手法の有効性を検証するためのシミュレーション例を示す。
関連論文リスト
- Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Safe reinforcement learning for multi-energy management systems with
known constraint functions [0.0]
強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。
我々はSafeFallbackとGiveSafeという2つの新しい安全なRL手法を提案する。
シミュレーションされたマルチエネルギーシステムのケーススタディでは、どちらの手法も非常に高い実用性から始めることを示した。
論文 参考訳(メタデータ) (2022-07-08T11:33:53Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Safe Distributional Reinforcement Learning [19.607668635077495]
強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
論文 参考訳(メタデータ) (2021-02-26T13:03:27Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。