論文の概要: Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.18811v1
- Date: Sat, 28 Oct 2023 20:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:32:16.807779
- Title: Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning
- Title(参考訳): モデルに基づく安全な強化学習のための階層的枠組み
- Authors: Ammar N. Abbas, Georgios C. Chasparis, and John D. Kelleher
- Abstract要約: 本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
- 参考スコア(独自算出の注目度): 1.3678669691302048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The difficulty of identifying the physical model of complex systems has led
to exploring methods that do not rely on such complex modeling of the systems.
Deep reinforcement learning has been the pioneer for solving this problem
without the need for relying on the physical model of complex systems by just
interacting with it. However, it uses a black-box learning approach that makes
it difficult to be applied within real-world and safety-critical systems
without providing explanations of the actions derived by the model.
Furthermore, an open research question in deep reinforcement learning is how to
focus the policy learning of critical decisions within a sparse domain. This
paper proposes a novel approach for the use of deep reinforcement learning in
safety-critical systems. It combines the advantages of probabilistic modeling
and reinforcement learning with the added benefits of interpretability and
works in collaboration and synchronization with conventional decision-making
strategies. The BC-SRLA is activated in specific situations which are
identified autonomously through the fused information of probabilistic model
and reinforcement learning, such as abnormal conditions or when the system is
near-to-failure. Further, it is initialized with a baseline policy using policy
cloning to allow minimum interactions with the environment to address the
challenges associated with using RL in safety-critical industries. The
effectiveness of the BC-SRLA is demonstrated through a case study in
maintenance applied to turbofan engines, where it shows superior performance to
the prior art and other baselines.
- Abstract(参考訳): 複雑なシステムの物理モデルを特定することの難しさは、そのような複雑なシステムのモデリングに依存しない方法の探求につながった。
深層強化学習(Deep reinforcement learning)は、複雑なシステムの物理的モデルに頼る必要なしに、この問題を解決した先駆者である。
しかし、ブラックボックス学習アプローチを用いることで、モデルから派生したアクションの説明をすることなく、実世界および安全クリティカルなシステムで適用することが困難になる。
さらに、深層強化学習におけるオープンリサーチの質問は、スパースドメイン内の重要な決定のポリシー学習にフォーカスする方法である。
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率的モデリングと強化学習の利点と、解釈可能性の付加的な利点を組み合わせることで、従来の意思決定戦略と協調して働く。
BC-SRLAは、確率モデルの融合情報や、異常状態やシステム障害に近い状況などの強化学習を通じて、自律的に特定される特定の状況において活性化される。
さらに、安全上重要な産業において、RLの使用に伴う課題に対処するため、環境との最小限の対話を可能にするため、ポリシークローニングを用いた基本方針で初期化される。
BC-SRLAの有効性は、ターボファンエンジンのメンテナンスにおけるケーススタディを通じて実証され、従来の技術や他のベースラインよりも優れた性能を示す。
関連論文リスト
- Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions [2.50194939587674]
本稿では,未知のダイナミクスを用いた効率的なポリシー学習を実現するためのモデルベースRLフレームワークを提案する。
本稿では,モデルベースRLのトレーニングおよび政策学習における安全性制約を付加する新しい手法を紹介し,検討する。
論文 参考訳(メタデータ) (2024-05-25T11:21:12Z) - Imitation Game: A Model-based and Imitation Learning Deep Reinforcement Learning Hybrid [39.58317527488534]
本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
論文 参考訳(メタデータ) (2024-04-02T09:55:30Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Adaptive Decision Making at the Intersection for Autonomous Vehicles
Based on Skill Discovery [13.134487965031667]
都市環境では、複雑で不確実な交差点のシナリオは自動運転にとって困難である。
安全性を確保するためには、他の車両とのインタラクションを処理できる適応的な意思決定システムを開発することが不可欠である。
知識を自律的に蓄積し再利用できる階層的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-24T11:56:45Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。