論文の概要: Shielded Reinforcement Learning for Hybrid Systems
- arxiv url: http://arxiv.org/abs/2308.14424v1
- Date: Mon, 28 Aug 2023 09:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:41:14.050423
- Title: Shielded Reinforcement Learning for Hybrid Systems
- Title(参考訳): ハイブリッドシステムのためのシールド強化学習
- Authors: Asger Horn Brorholt and Peter Gj{\o}l Jensen and Kim Guldstrand Larsen
and Florian Lorber and Christian Schilling
- Abstract要約: 強化学習は、ほぼ最適に近いコントローラを構築するために利用されてきたが、それらの動作は安全であると保証されていない。
学習したコントローラーに安全を課す方法の1つは、設計によって正しいシールドを使用することである。
本研究では,いわゆる野蛮な手法によるシールドの構築を提案し,基礎となるパーティションベースの2プレーヤ安全ゲームの近似有限表現を抽出する。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe and optimal controller synthesis for switched-controlled hybrid systems,
which combine differential equations and discrete changes of the system's
state, is known to be intricately hard. Reinforcement learning has been
leveraged to construct near-optimal controllers, but their behavior is not
guaranteed to be safe, even when it is encouraged by reward engineering. One
way of imposing safety to a learned controller is to use a shield, which is
correct by design. However, obtaining a shield for non-linear and hybrid
environments is itself intractable. In this paper, we propose the construction
of a shield using the so-called barbaric method, where an approximate finite
representation of an underlying partition-based two-player safety game is
extracted via systematically picked samples of the true transition function.
While hard safety guarantees are out of reach, we experimentally demonstrate
strong statistical safety guarantees with a prototype implementation and UPPAAL
STRATEGO. Furthermore, we study the impact of the synthesized shield when
applied as either a pre-shield (applied before learning a controller) or a
post-shield (only applied after learning a controller). We experimentally
demonstrate superiority of the pre-shielding approach. We apply our technique
on a range of case studies, including two industrial examples, and further
study post-optimization of the post-shielding approach.
- Abstract(参考訳): 差動方程式と系の状態の離散的な変化を組み合わせた切替制御ハイブリッドシステムの安全かつ最適な制御系合成は複雑に難しいことが知られている。
強化学習は、最適に近いコントローラを構築するために活用されているが、報酬工学によって奨励されたとしても、その振る舞いは安全であると保証されていない。
学習したコントローラーに安全を課す方法の1つは、設計によって正しいシールドを使用することである。
しかし、非線形環境とハイブリッド環境のシールドを得ること自体が困難である。
本稿では,真の遷移関数を体系的に抽出したサンプルを用いて,基礎となるパーティションベースの2人プレイヤー安全ゲームの近似有限表現を抽出した,いわゆるバーバリ法を用いたシールドの構成を提案する。
ハードセーフティ保証は手に入らないが,プロトタイプ実装とUPPAAL STRATEGOによる統計的安全性保証を実験的に実証する。
さらに,プレシールド(コントローラ学習前に適用)またはポストシールド(コントローラ学習後にのみ適用)として適用した場合の合成シールドの影響について検討した。
先行シールド方式の優位性を実験的に実証する。
本手法は,2つの産業事例を含む多様な事例研究に応用し,ポストシールドアプローチの最適化後のさらなる研究を行う。
関連論文リスト
- Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning Hybrid Control Barrier Functions from Data [66.37785052099423]
ハイブリッドシステムの安全な制御法則を得るための体系的なツールが欠如していることから,データから確実に安全な制御法則を学習するための最適化ベースのフレームワークを提案する。
特に、システムダイナミクスが知られており、安全なシステム動作を示すデータが利用可能であるような設定を仮定する。
論文 参考訳(メタデータ) (2020-11-08T23:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。