論文の概要: Safety Guarantees in Zero-Shot Reinforcement Learning for Cascade Dynamical Systems
- arxiv url: http://arxiv.org/abs/2604.10429v1
- Date: Sun, 12 Apr 2026 02:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.012865
- Title: Safety Guarantees in Zero-Shot Reinforcement Learning for Cascade Dynamical Systems
- Title(参考訳): ゼロショット強化学習におけるカスケード力学系の安全性保証
- Authors: Shima Rabiei, Sandipan Mishra, Santiago Paternain,
- Abstract要約: 本稿では,カスケード力学系におけるゼロショット安全保証の問題について考察する。
我々は安全を、高い確率で常に安全と見なされるセットに残るものと定義する。
ゼロショット配備後の安全維持確率と内部状態の追跡品質の相互関係を確立する。
- 参考スコア(独自算出の注目度): 1.7954335118363964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the problem of zero-shot safety guarantees for cascade dynamical systems. These are systems where a subset of the states (the inner states) affects the dynamics of the remaining states (the outer states) but not vice-versa. We define safety as remaining on a set deemed safe for all times with high probability. We propose to train a safe RL policy on a reduced-order model, which ignores the dynamics of the inner states, but it treats it as an action that influences the outer state. Thus, reducing the complexity of the training. When deployed in the full system the trained policy is combined with a low-level controller whose task is to track the reference provided by the RL policy. Our main theoretical contribution is a bound on the safe probability in the full-order system. In particular, we establish the interplay between the probability of remaining safe after the zero-shot deployment and the quality of the tracking of the inner states. We validate our theoretical findings on a quadrotor navigation task, demonstrating that the preservation of the safety guarantees is tied to the bandwidth and tracking capabilities of the low-level controller.
- Abstract(参考訳): 本稿では,カスケード力学系におけるゼロショット安全保証の問題について考察する。
これらは、状態のサブセット(内状態)が残りの状態(外状態)のダイナミクスに影響を与えるが、逆ではないシステムである。
我々は安全を、高い確率で常に安全と見なされるセットに残るものと定義する。
本稿では, 内部状態のダイナミクスを無視する低次モデルを用いて安全なRLポリシーを訓練するが, 外部状態に影響を与える作用として扱う。
したがって、トレーニングの複雑さを減らします。
フルシステムにデプロイされると、トレーニングされたポリシは、RLポリシによって提供される参照を追跡するための、低レベルのコントローラと結合される。
我々の理論的な主な貢献は、全順序系の安全な確率に縛られることである。
特に,ゼロショット配置後の安全維持確率と内部状態の追跡品質の相互関係を確立する。
本研究では, 安全保証の保存が低レベル制御器の帯域幅と追跡能力に結びついていることを示す。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety [1.9573380763700712]
本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
論文 参考訳(メタデータ) (2021-05-22T10:40:58Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。