論文の概要: Probabilistic Reach-Avoid for Bayesian Neural Networks
- arxiv url: http://arxiv.org/abs/2310.01951v1
- Date: Tue, 3 Oct 2023 10:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:50:52.874816
- Title: Probabilistic Reach-Avoid for Bayesian Neural Networks
- Title(参考訳): ベイズニューラルネットワークの確率論的リーチ回避
- Authors: Matthew Wicker, Luca Laurenti, Andrea Patane, Nicola Paoletti,
Alessandro Abate, Marta Kwiatkowska
- Abstract要約: 最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
- 参考スコア(独自算出の注目度): 71.67052234622781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning seeks to simultaneously learn the dynamics
of an unknown stochastic environment and synthesise an optimal policy for
acting in it. Ensuring the safety and robustness of sequential decisions made
through a policy in such an environment is a key challenge for policies
intended for safety-critical scenarios. In this work, we investigate two
complementary problems: first, computing reach-avoid probabilities for
iterative predictions made with dynamical models, with dynamics described by
Bayesian neural network (BNN); second, synthesising control policies that are
optimal with respect to a given reach-avoid specification (reaching a "target"
state, while avoiding a set of "unsafe" states) and a learned BNN model. Our
solution leverages interval propagation and backward recursion techniques to
compute lower bounds for the probability that a policy's sequence of actions
leads to satisfying the reach-avoid specification. Such computed lower bounds
provide safety certification for the given policy and BNN model. We then
introduce control synthesis algorithms to derive policies maximizing said lower
bounds on the safety probability. We demonstrate the effectiveness of our
method on a series of control benchmarks characterized by learned BNN dynamics
models. On our most challenging benchmark, compared to purely data-driven
policies the optimal synthesis algorithm is able to provide more than a
four-fold increase in the number of certifiable states and more than a
three-fold increase in the average guaranteed reach-avoid probability.
- Abstract(参考訳): モデルに基づく強化学習は、未知の確率環境のダイナミクスを同時に学習し、その動作に最適なポリシーを合成することを目指している。
このような環境における政策を通じた逐次決定の安全性と堅牢性を確保することは、安全クリティカルなシナリオを意図した政策にとって重要な課題である。
本稿では,2つの相補的な問題について検討する。第一に,bnn(bayesian neural network)が記述した,動的モデルを用いた反復予測のための到達回避確率の計算,第二に,与えられた到達回避仕様("安全でない"状態のセットを避けながら目標"状態に到達する)に対して最適な制御ポリシの合成,および学習されたbnnモデルである。
提案手法では,区間伝播と後方帰納法を利用して,ポリシーの動作列が到達回避仕様を満足させる確率の下限を計算する。
そのような計算された下限は、所定のポリシーとbnnモデルの安全性証明を提供する。
次に、安全確率の下限を最大化するポリシーを導出するために制御合成アルゴリズムを導入する。
学習bnnダイナミクスモデルを用いた一連の制御ベンチマークにおいて,本手法の有効性を示す。
最も難しいベンチマークでは、純粋にデータ駆動のポリシーと比較して、最適な合成アルゴリズムは、証明可能な状態の数を4倍以上増加させ、平均到達回避確率を3倍以上増加させることができる。
関連論文リスト
- Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Certification of Iterative Predictions in Bayesian Neural Networks [79.15007746660211]
我々は、BNNモデルの軌道が与えられた状態に到達する確率に対して、安全でない状態の集合を避けながら低い境界を計算する。
我々は、制御と強化学習の文脈において、下限を用いて、与えられた制御ポリシーの安全性保証を提供する。
論文 参考訳(メタデータ) (2021-05-21T05:23:57Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。