論文の概要: A Dynamical Systems Framework for Reinforcement Learning Safety and Robustness Verification
- arxiv url: http://arxiv.org/abs/2508.15588v1
- Date: Thu, 21 Aug 2025 14:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.362194
- Title: A Dynamical Systems Framework for Reinforcement Learning Safety and Robustness Verification
- Title(参考訳): 強化学習の安全性とロバスト性検証のための動的システムフレームワーク
- Authors: Ahmed Nasir, Abdelhafid Zenati,
- Abstract要約: 本稿では,学習方針の堅牢性と安全性を検証するための形式的手法の欠如に対処する新しい枠組みを提案する。
動的システム理論からツールを活用することで、システムの振る舞いを管理する隠れた「骨格」として機能するラグランジアンコヒーレント構造(LCS)を特定し視覚化する。
この枠組みは政策行動の包括的かつ解釈可能な評価を提供し、報酬のみに基づいて成功しているように見える政策の重大な欠陥の特定に成功していることを示す。
- 参考スコア(独自算出の注目度): 1.104960878651584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of reinforcement learning to safety-critical systems is limited by the lack of formal methods for verifying the robustness and safety of learned policies. This paper introduces a novel framework that addresses this gap by analyzing the combination of an RL agent and its environment as a discrete-time autonomous dynamical system. By leveraging tools from dynamical systems theory, specifically the Finite-Time Lyapunov Exponent (FTLE), we identify and visualize Lagrangian Coherent Structures (LCS) that act as the hidden "skeleton" governing the system's behavior. We demonstrate that repelling LCS function as safety barriers around unsafe regions, while attracting LCS reveal the system's convergence properties and potential failure modes, such as unintended "trap" states. To move beyond qualitative visualization, we introduce a suite of quantitative metrics, Mean Boundary Repulsion (MBR), Aggregated Spurious Attractor Strength (ASAS), and Temporally-Aware Spurious Attractor Strength (TASAS), to formally measure a policy's safety margin and robustness. We further provide a method for deriving local stability guarantees and extend the analysis to handle model uncertainty. Through experiments in both discrete and continuous control environments, we show that this framework provides a comprehensive and interpretable assessment of policy behavior, successfully identifying critical flaws in policies that appear successful based on reward alone.
- Abstract(参考訳): 安全クリティカルシステムへの強化学習の適用は,学習方針の堅牢性と安全性を検証するための形式的手法の欠如によって制限される。
本稿では,RLエージェントと環境の組み合わせを離散時間自律力学系として解析することにより,このギャップに対処する新しい枠組みを提案する。
動的システム理論、特にFinite-Time Lyapunov Exponent (FTLE)のツールを活用することで、システムの振る舞いを管理する隠れた「骨格」として機能するラグランジアンコヒーレント構造(LCS)を特定し視覚化する。
我々は、LCSが安全でない領域を囲む安全障壁として機能する一方で、LCSを惹きつけることで、意図しない「トラップ」状態のようなシステムの収束特性や潜在的な障害モードが明らかになることを示した。
質的な可視化を超えて、政策の安全マージンとロバスト性を正式に測定するために、平均境界反発(MBR)、集積スパーラス強度(ASAS)、テンポリーアウェアスパーラスアトラクション強度(TASAS)という一連の量的指標を導入する。
さらに、局所的な安定性保証を導出し、モデルの不確実性に対処するために解析を拡張する方法を提案する。
個別かつ連続的な制御環境での実験を通じて、この枠組みは、報酬のみに基づいて成功したように見える政策の重大な欠陥をうまく識別し、政策行動の包括的かつ解釈可能な評価を提供することを示した。
関連論文リスト
- Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - Investigating Robustness in Cyber-Physical Systems: Specification-Centric Analysis in the face of System Deviations [8.8690305802668]
サイバー物理システム(CPS)の重要属性は堅牢性であり、安全に運用する能力を示している。
本稿では,特定のシステム要件を満たす上でのコントローラの有効性を特徴付ける,仕様に基づく新しいロバスト性を提案する。
本稿では, 微妙な堅牢性違反を識別するための2層シミュレーションに基づく解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:44:43Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Adversarially Robust Stability Certificates can be Sample-Efficient [14.658040519472646]
未知の非線形力学系に対する逆向きに頑健な安定性証明について考察する。
敵安定証明書を学習する統計的コストは,定型的安定性証明書を学習するのと同程度であることを示す。
論文 参考訳(メタデータ) (2021-12-20T17:23:31Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。