論文の概要: Verification-Guided Falsification for Safe RL via Explainable Abstraction and Risk-Aware Exploration
- arxiv url: http://arxiv.org/abs/2506.03469v1
- Date: Wed, 04 Jun 2025 00:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.095316
- Title: Verification-Guided Falsification for Safe RL via Explainable Abstraction and Risk-Aware Exploration
- Title(参考訳): 説明可能な抽象化とリスク対応探索による安全なRLの検証誘導Falsification
- Authors: Tuan Le, Risal Shefin, Debashis Gupta, Thai Le, Sarra Alqahtani,
- Abstract要約: 本稿では、説明可能性、モデルチェック、リスク誘導のファルシフィケーションを統合し、厳密性とカバレッジを両立させるハイブリッドフレームワークを提案する。
我々のアプローチは、包括的抽象ポリシー要約(CAPS)を用いたRLポリシーの人間解釈可能な抽象化の構築から始まる。
違反が検出されない場合、オフラインデータセットの抽象化とカバレッジに制限があるため、満足度を結論付けることはできません。
- 参考スコア(独自算出の注目度): 8.246285288584625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ensuring the safety of reinforcement learning (RL) policies in high-stakes environments requires not only formal verification but also interpretability and targeted falsification. While model checking provides formal guarantees, its effectiveness is limited by abstraction quality and the completeness of the underlying trajectory dataset. We propose a hybrid framework that integrates (1) explainability, (2) model checking, and (3) risk-guided falsification to achieve both rigor and coverage. Our approach begins by constructing a human-interpretable abstraction of the RL policy using Comprehensible Abstract Policy Summarization (CAPS). This abstract graph, derived from offline trajectories, is both verifier-friendly, semantically meaningful, and can be used as input to Storm probabilistic model checker to verify satisfaction of temporal safety specifications. If the model checker identifies a violation, it will return an interpretable counterexample trace by which the policy fails the safety requirement. However, if no violation is detected, we cannot conclude satisfaction due to potential limitation in the abstraction and coverage of the offline dataset. In such cases, we estimate associated risk during model checking to guide a falsification strategy that prioritizes searching in high-risk states and regions underrepresented in the trajectory dataset. We further provide PAC-style guarantees on the likelihood of uncovering undetected violations. Finally, we incorporate a lightweight safety shield that switches to a fallback policy at runtime when such a risk exceeds a threshold, facilitating failure mitigation without retraining.
- Abstract(参考訳): 高所環境における強化学習(RL)政策の安全性を確保するには、形式的検証だけでなく、解釈可能性や目標の偽造も必要である。
モデルチェックは形式的な保証を提供するが、その効果は抽象的な品質と基礎となる軌道データセットの完全性によって制限される。
本稿では,(1)説明可能性,(2)モデルチェック,(3)リスク誘導のファルシフィケーションを統合し,厳密さとカバレッジを両立させるハイブリッドフレームワークを提案する。
提案手法は,CAPS(Comprehensible Abstract Policy Summarization)を用いて,RLポリシーの人間解釈可能な抽象化を構築することから始まる。
この抽象グラフは、オフライン軌跡から派生したもので、検証者フレンドリで意味のあるものであり、Storm確率モデルチェッカーの入力として使用することができ、時間的安全仕様の満足度を検証することができる。
モデルチェッカーが違反を識別すると、ポリシーが安全要件に反する解釈可能な反例トレースが返される。
しかし、違反が検出されない場合、オフラインデータセットの抽象化とカバレッジの潜在的な制限により満足度が決定できない。
このような場合、モデル検査中の関連リスクを推定し、高リスク状態やトラジェクトリデータセットに表現されていない領域の探索を優先するファルシフィケーション戦略を導出する。
さらに、未発見の違反が発見される可能性に関するPACスタイルの保証も提供します。
最後に、そのようなリスクがしきい値を超えた場合、実行時にフォールバックポリシーに切り替える軽量な安全シールドを組み込み、再トレーニングせずに障害軽減を容易にする。
関連論文リスト
- Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Learning Verifiable Control Policies Using Relaxed Verification [49.81690518952909]
本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。
アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
論文 参考訳(メタデータ) (2025-04-23T16:54:35Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - An Abstraction-based Method to Verify Multi-Agent Deep
Reinforcement-Learning Behaviours [8.95294551927446]
マルチエージェント強化学習(RL)はしばしば、学習エージェントの安全な行動を保証するために苦労する。
本稿では,形式検証と(深度)RLアルゴリズムを組み合わせることで,形式化された安全制約の満足度を保証する手法を提案する。
論文 参考訳(メタデータ) (2021-02-02T11:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。