論文の概要: Interval POMDP Shielding for Imperfect-Perception Agents
- arxiv url: http://arxiv.org/abs/2604.20728v1
- Date: Wed, 22 Apr 2026 16:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.221204
- Title: Interval POMDP Shielding for Imperfect-Perception Agents
- Title(参考訳): インターバルPOMDP遮蔽による不完全受容剤
- Authors: William Scarbro, Ravi Mangal,
- Abstract要約: 学習した知覚に依存する自律システムは、センサーの読み取りが誤って分類された場合、安全でない決定を下す可能性がある。
我々はシールドについて研究している: 提案されたアクションを考慮すれば、シールドは安全を侵害する可能性のあるアクションをブロックする。
実験により,我々の遮蔽アプローチは,最先端のベースラインよりもシステムの安全性を向上させることが示された。
- 参考スコア(独自算出の注目度): 0.5729426778193399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems that rely on learned perception can make unsafe decisions when sensor readings are misclassified. We study shielding for this setting: given a proposed action, a shield blocks actions that could violate safety. We consider the common case where system dynamics are known but perception uncertainty must be estimated from finite labeled data. From these data we build confidence intervals for the probabilities of perception outcomes and use them to model the system as a finite Interval Partially Observable Markov Decision Process with discrete states and actions. We then propose an algorithm to compute a conservative set of beliefs over the underlying state that is consistent with the observations seen so far. This enables us to construct a runtime shield that comes with a finite-horizon guarantee: with high probability over the training data, if the true perception uncertainty rates lie within the learned intervals, then every action admitted by the shield satisfies a stated lower bound on safety. Experiments on four case studies show that our shielding approach (and variants derived from it) improves the safety of the system over state-of-the-art baselines.
- Abstract(参考訳): 学習した知覚に依存する自律システムは、センサーの読み取りが誤って分類された場合、安全でない決定を下す可能性がある。
提案された行動から、安全を侵害する可能性のある行為をシールドがブロックする。
システム力学が知られているが、認識の不確かさを有限ラベル付きデータから推定しなければならない場合を考える。
これらのデータから、認識結果の確率に対する信頼区間を構築し、それを有限個のインターバル部分観測可能なマルコフ決定プロセスとしてモデル化する。
そこで我々は,これまでに見てきた観測と一致した基礎的状態に対する保守的信念の集合を計算するアルゴリズムを提案する。
これにより、トレーニングデータよりも高い確率で、真の認識の不確実性率が学習間隔内にある場合、シールドによって認められたすべてのアクションが、安全に関する記述された下限を満たすような、有限水平保証を備えたランタイムシールドを構築することができる。
4つのケーススタディの実験では、我々の遮蔽アプローチ(およびそれに由来する変種)が、最先端のベースラインよりもシステムの安全性を向上させることが示されている。
関連論文リスト
- Conformal Safety Shielding for Imperfect-Perception Agents [7.5422935754618825]
学習成分を不完全な知覚に用いた自律エージェントにおける安全制御の問題点を考察する。
本研究では,認識誤差下でのランタイム安全保証を実現するシールド構造を提案する。
論文 参考訳(メタデータ) (2025-06-12T17:37:29Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Safety Shielding under Delayed Observation [59.86192283565134]
シールドは安全な実行を保証するコンストラクション・バイ・コンストラクション・インストラクタである。
シールドは、将来の干渉が最小化される可能性が最も高い方法で、安全な修正行動を選択するべきである。
現実的な運転シミュレータにおけるシールドの最初の統合について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:06:10Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Safe Perception-Based Control under Stochastic Sensor Uncertainty using
Conformal Prediction [27.515056747751053]
本稿では,知覚マップの推定不確かさを定量化する知覚ベース制御フレームワークを提案する。
また、これらの不確実性表現を制御設計に統合する。
本稿では,LiDAR対応F1/10thカーに対する認識制御の有効性を示す。
論文 参考訳(メタデータ) (2023-04-01T01:45:53Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。
本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。
私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文 参考訳(メタデータ) (2021-10-04T17:59:31Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。