Fugu-MT 論文翻訳(概要): Safety Shielding under Delayed Observation

論文の概要: Safety Shielding under Delayed Observation

arxiv url: http://arxiv.org/abs/2307.02164v1
Date: Wed, 5 Jul 2023 10:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 14:15:04.440334
Title: Safety Shielding under Delayed Observation
Title（参考訳）: 遅延観測による安全遮蔽
Authors: Filip Cano C\'ordoba, Alexander Palmisano, Martin Fr\"anzle, Roderick Bloem, Bettina K\"onighofer
Abstract要約: シールドは安全な実行を保証するコンストラクション・バイ・コンストラクション・インストラクタである。シールドは、将来の干渉が最小化される可能性が最も高い方法で、安全な修正行動を選択するべきである。現実的な運転シミュレータにおけるシールドの最初の統合について述べる。
参考スコア（独自算出の注目度）: 59.86192283565134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agents operating in physical environments need to be able to handle delays in the input and output signals since neither data transmission nor sensing or actuating the environment are instantaneous. Shields are correct-by-construction runtime enforcers that guarantee safe execution by correcting any action that may cause a violation of a formal safety specification. Besides providing safety guarantees, shields should interfere minimally with the agent. Therefore, shields should pick the safe corrective actions in such a way that future interferences are most likely minimized. Current shielding approaches do not consider possible delays in the input signals in their safety analyses. In this paper, we address this issue. We propose synthesis algorithms to compute \emph{delay-resilient shields} that guarantee safety under worst-case assumptions on the delays of the input signals. We also introduce novel heuristics for deciding between multiple corrective actions, designed to minimize future shield interferences caused by delays. As a further contribution, we present the first integration of shields in a realistic driving simulator. We implemented our delayed shields in the driving simulator \textsc{Carla}. We shield potentially unsafe autonomous driving agents in different safety-critical scenarios and show the effect of delays on the safety analysis.
Abstract（参考訳）: 物理的環境で動作するエージェントは、データ伝送やセンシングや環境の起動が瞬時ではないため、入出力信号の遅延を処理できる必要がある。 shieldは、正式な安全仕様に違反する可能性のあるアクションを修正して、安全な実行を保証する、ビルド毎のランタイム強制である。安全保証の提供に加えて、シールドはエージェントと最小限に干渉する必要がある。したがってシールドは、将来の干渉が最小限に抑えられるような安全な修正行動を選択するべきである。現在の遮蔽法は、入力信号の安全性解析における遅延を考慮しない。本稿では,この問題について述べる。本稿では,入力信号の遅延に対する最悪の仮定の下での安全性を保証するための合成アルゴリズムを提案する。また,遅延による将来のシールド干渉を最小限に抑えるために,複数の補正動作を決定するための新しいヒューリスティックスを導入する。さらなる貢献として、現実的な運転シミュレータにおいてシールドを初めて統合する。駆動シミュレータ \textsc{Carla} に遅延シールドを実装した。我々は、安全クリティカルな異なるシナリオにおいて、潜在的に安全でない自律運転エージェントを遮蔽し、安全分析に対する遅延の影響を示す。

関連論文リスト

RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文参考訳（メタデータ） (2025-12-24T15:01:26Z)
Predictive Safety Shield for Dyna-Q Reinforcement Learning [0.0]
離散空間におけるモデルに基づく強化学習エージェントの予測安全シールドを提案する。我々の安全シールドは、環境モデルの安全なシミュレーションから生じる安全な予測に基づいて、Q関数を局所的に更新する。グリッドワールド環境に関する我々の実験は、たとえ短い予測地平線であっても最適な経路を特定するのに十分であることを示した。
論文参考訳（メタデータ） (2025-11-26T15:59:55Z)
Efficient Dynamic Shielding for Parametric Safety Specifications [2.1829548755022423]
Shieldingは、安全を損なう可能性がある場合、AIコントローラの動作を監視し、介入する必要があるランタイム安全執行ツールである。パラメトリック安全仕様の動的シールドを導入し,実行時に発生する可能性のあるすべての安全仕様の集合を簡潔に表現する。実験では、動的シールドはオフライン設計に数分かかり、各ステップでオンライン適応するのに1秒から数秒かかりましたが、ブルートフォースのオンライン再計算アプローチは最大5倍遅くなりました。
論文参考訳（メタデータ） (2025-05-28T08:30:03Z)
Synthesizing Efficient and Permissive Programmatic Runtime Shields for Neural Policies [7.831197018945118]
ニューラルポリシーのための軽量でパーミッシブなプログラム型ランタイムシールドを合成する新しいフレームワークを提案する。 Aegisは、スケッチベースのプログラム合成問題としてランタイムシールドの探索を定式化することでこれを達成している。現在の最先端と比較すると、イージスのシールドは時間オーバーヘッドの2.1$times$とメモリ使用量の4.4$times$である。
論文参考訳（メタデータ） (2024-10-08T02:44:55Z)
Realizable Continuous-Space Shields for Safe Reinforcement Learning [13.728961635717134]
深層強化学習(Dep Reinforcement Learning, DRL)は、時には破滅的な障害に対して、追加の保護なしに脆弱なままである。効果的な解決策の1つは、エージェントのアクションを検証・調整するシールドを使用して、与えられた一連の安全仕様に準拠することである。本研究では,連続状態および行動空間における安全要件の実現可能性を自動的に保証する最初の遮蔽手法を提案する。
論文参考訳（メタデータ） (2024-10-02T21:08:11Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)
Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文参考訳（メタデータ） (2023-04-21T16:19:54Z)
Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。実行中、シールドは利用可能な各アクションの安全性を分析する。この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文参考訳（メタデータ） (2022-12-04T16:00:29Z)
Automata Learning meets Shielding [1.1417805445492082]
安全は、強化学習(RL)における主要な研究課題の1つである。本稿では,確率的,部分的に未知な環境下での探査において,RLエージェントの安全違反を回避する方法について述べる。提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的手法で組み合わせたものである。
論文参考訳（メタデータ） (2022-12-04T14:58:12Z)
Sample-Efficient Safety Assurances using Conformal Prediction [57.92013073974406]
早期警戒システムは、安全でない状況が差し迫ったときに警告を提供することができる。安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。本稿では,共形予測と呼ばれる統計的推論手法とロボット・環境力学シミュレータを組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-28T23:00:30Z)
It's Time to Play Safe: Shield Synthesis for Timed Systems [53.796331564067835]
タイムド・オートマトンとして与えられるタイムド・セーフティ特性からタイムド・シールドを合成する方法を示す。時間付きシールドは、可能な限りシステムに干渉しながら、ランニングシステムの安全性を強制する。
論文参考訳（メタデータ） (2020-06-30T11:21:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。