論文の概要: Probabilistic Safety Guarantee for Stochastic Control Systems Using Average Reward MDPs
- arxiv url: http://arxiv.org/abs/2511.08419v1
- Date: Wed, 12 Nov 2025 01:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.80724
- Title: Probabilistic Safety Guarantee for Stochastic Control Systems Using Average Reward MDPs
- Title(参考訳): 平均逆MDPを用いた確率制御系の確率論的安全性保証
- Authors: Saber Omidi, Marek Petrik, Se Young Yoon, Momotaz Begum,
- Abstract要約: 有限状態集合の安全レベルを決定するための安全ポリシーを計算した新しいアルゴリズムを提案する。
このアルゴリズムは、安全目標を標準的な平均報酬であるマルコフ決定プロセス(MDP)の目標に還元する。
その結果, 平均逆解はより包括的であり, より早く収束し, 最小値の逆解に比べて高品質であることがわかった。
- 参考スコア(独自算出の注目度): 8.872171447378685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety in stochastic control systems, which are subject to random noise with a known probability distribution, aims to compute policies that satisfy predefined operational constraints with high confidence throughout the uncertain evolution of the state variables. The unpredictable evolution of state variables poses a significant challenge for meeting predefined constraints using various control methods. To address this, we present a new algorithm that computes safe policies to determine the safety level across a finite state set. This algorithm reduces the safety objective to the standard average reward Markov Decision Process (MDP) objective. This reduction enables us to use standard techniques, such as linear programs, to compute and analyze safe policies. We validate the proposed method numerically on the Double Integrator and the Inverted Pendulum systems. Results indicate that the average-reward MDPs solution is more comprehensive, converges faster, and offers higher quality compared to the minimum discounted-reward solution.
- Abstract(参考訳): 確率分布を持つランダムノイズを受ける確率制御系の安全性は、状態変数の不確実な進化を通じて高い信頼度で事前定義された操作制約を満たすポリシーを計算することを目的としている。
状態変数の予測不可能な進化は、様々な制御方法を用いた事前定義された制約を満たす上で大きな課題となる。
そこで本稿では, 安全なポリシを計算し, 有限状態集合の安全性レベルを決定するアルゴリズムを提案する。
このアルゴリズムは、安全目標を標準的な平均報酬であるマルコフ決定プロセス(MDP)の目標に還元する。
この削減により、線形プログラムなどの標準技術を用いて安全なポリシーを計算・解析することが可能となる。
提案手法を2重積分器と逆振子系で数値的に検証する。
その結果, 平均逆解はより包括的であり, より早く収束し, 最小値の逆解に比べて高品質であることがわかった。
関連論文リスト
- ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Safe Wasserstein Constrained Deep Q-Learning [2.088376060651494]
本稿では,Wasserstein ambiguity セットを利用した分散ロバストなQ-Learningアルゴリズム (DrQ) を提案する。
リチウムイオン電池の高速充電のケーススタディを用いて、理想主義的安全性保証が安全性を全般的に向上させる方法について検討する。
論文 参考訳(メタデータ) (2020-02-07T21:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。