論文の概要: Synthesizing Efficient and Permissive Programmatic Runtime Shields for Neural Policies
- arxiv url: http://arxiv.org/abs/2410.05641v1
- Date: Tue, 8 Oct 2024 02:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:29:06.774405
- Title: Synthesizing Efficient and Permissive Programmatic Runtime Shields for Neural Policies
- Title(参考訳): ニューラルネットワークのための効率的かつパーミッシブなプログラム実行シールドの合成
- Authors: Jieke Shi, Junda He, Zhou Yang, Đorđe Žikelić, David Lo,
- Abstract要約: ニューラルポリシーのための軽量でパーミッシブなプログラム型ランタイムシールドを合成する新しいフレームワークを提案する。
Aegisは、スケッチベースのプログラム合成問題としてランタイムシールドの探索を定式化することでこれを達成している。
現在の最先端と比較すると、イージスのシールドは時間オーバーヘッドの2.1$times$とメモリ使用量の4.4$times$である。
- 参考スコア(独自算出の注目度): 7.831197018945118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing use of neural policies in control systems, ensuring their safety and reliability has become a critical software engineering task. One prevalent approach to ensuring the safety of neural policies is to deploy programmatic runtime shields alongside them to correct their unsafe commands. However, the programmatic runtime shields synthesized by existing methods are either computationally expensive or insufficiently permissive, resulting in high overhead and unnecessary interventions on the system. To address these challenges, we propose Aegis, a novel framework that synthesizes lightweight and permissive programmatic runtime shields for neural policies. Aegis achieves this by formulating the seeking of a runtime shield as a sketch-based program synthesis problem and proposing a novel method that leverages counterexample-guided inductive synthesis and Bayesian optimization to solve it. To evaluate Aegis and its synthesized shields, we use four representative control systems and compare Aegis with the current state-of-the-art. Our results show that the programmatic runtime shields synthesized by Aegis can correct all unsafe commands from neural policies, ensuring that the systems do not violate any desired safety properties at all times. Compared to the current state-of-the-art, Aegis's shields exhibit a 2.1$\times$ reduction in time overhead and a 4.4$\times$ reduction in memory usage, suggesting that they are much more lightweight. Moreover, Aegis's shields incur an average of 1.6$\times$ fewer interventions than other shields, showing better permissiveness.
- Abstract(参考訳): 制御システムにおけるニューラルポリシーの利用が増加し、その安全性と信頼性が重要なソフトウェアエンジニアリングタスクになっている。
神経ポリシーの安全性を保証するための一般的なアプローチの1つは、プログラム的なランタイムシールドをそれらと一緒にデプロイして、安全でないコマンドを修正することである。
しかし、既存の手法で合成されたプログラムランタイムシールドは、計算コストがかかるか、十分に許容できないかのいずれかであり、システムに高いオーバーヘッドと不要な介入をもたらす。
これらの課題に対処するために、ニューラルポリシーのための軽量でパーミッシブなプログラムランタイムシールドを合成する新しいフレームワークであるAegisを提案する。
Aegisは、スケッチベースのプログラム合成問題としてランタイムシールドの探索を定式化し、それを解決するために反例誘導帰納的合成とベイズ最適化を利用する新しい方法を提案する。
Aegisとその合成シールドの評価には、4つの代表制御系を使用し、現在の最先端技術と比較する。
Aegisによって合成されたプログラム実行時シールドは、すべての安全でないコマンドをニューラルポリシーから修正し、システムが常に望まれる安全特性に違反しないことを保証している。
現在の最先端と比較すると、イージスのシールドは2.1$\times$時間オーバーヘッドと4.4$\times$メモリ使用量削減を示しており、より軽量であることを示している。
さらに、エージスのシールドは、他のシールドよりも平均1.6$\times$少ない介入を発生させ、許容性が向上した。
関連論文リスト
- Compositional Shielding and Reinforcement Learning for Multi-Agent Systems [1.124958340749622]
高度な強化学習は、高性能なポリシーを得るための強力なツールとして登場した。
安全を保証するための有望なパラダイムの1つは、安全でない行動からポリシーを守るシールドである。
本研究では,マルチエージェント遮蔽のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T12:52:48Z) - Shield Synthesis for LTL Modulo Theories [2.034732821736745]
我々は、複雑な安全仕様に従ってシールドを生成するための新しいアプローチを開発する。
我々の知る限りでは、このような表現力のためにシールドを合成するための最初のアプローチである。
論文 参考訳(メタデータ) (2024-06-06T15:40:29Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Shielding under Delayed Observation [59.86192283565134]
シールドは安全な実行を保証するコンストラクション・バイ・コンストラクション・インストラクタである。
シールドは、将来の干渉が最小化される可能性が最も高い方法で、安全な修正行動を選択するべきである。
現実的な運転シミュレータにおけるシールドの最初の統合について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:06:10Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文 参考訳(メタデータ) (2022-12-04T16:00:29Z) - Sample-Efficient Safety Assurances using Conformal Prediction [57.92013073974406]
早期警戒システムは、安全でない状況が差し迫ったときに警告を提供することができる。
安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。
本稿では,共形予測と呼ばれる統計的推論手法とロボット・環境力学シミュレータを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-28T23:00:30Z) - It's Time to Play Safe: Shield Synthesis for Timed Systems [53.796331564067835]
タイムド・オートマトンとして与えられるタイムド・セーフティ特性からタイムド・シールドを合成する方法を示す。
時間付きシールドは、可能な限りシステムに干渉しながら、ランニングシステムの安全性を強制する。
論文 参考訳(メタデータ) (2020-06-30T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。