論文の概要: Probabilistic Model Checking of Stochastic Reinforcement Learning Policies
- arxiv url: http://arxiv.org/abs/2403.18725v1
- Date: Wed, 27 Mar 2024 16:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:09:33.698367
- Title: Probabilistic Model Checking of Stochastic Reinforcement Learning Policies
- Title(参考訳): 確率的強化学習法の確率論的モデル検査
- Authors: Dennis Gross, Helge Spieker,
- Abstract要約: 本稿では,強化学習(RL)ポリシーを検証する手法を提案する。
このアプローチは、アルゴリズムとその対応する環境がMarkovプロパティに一括して準拠する限り、任意のRLアルゴリズムと互換性がある。
その結果,本手法はRLポリシーの検証に適していることがわかった。
- 参考スコア(独自算出の注目度): 5.923818043882103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a method to verify stochastic reinforcement learning (RL) policies. This approach is compatible with any RL algorithm as long as the algorithm and its corresponding environment collectively adhere to the Markov property. In this setting, the future state of the environment should depend solely on its current state and the action executed, independent of any previous states or actions. Our method integrates a verification technique, referred to as model checking, with RL, leveraging a Markov decision process, a trained RL policy, and a probabilistic computation tree logic (PCTL) formula to build a formal model that can be subsequently verified via the model checker Storm. We demonstrate our method's applicability across multiple benchmarks, comparing it to baseline methods called deterministic safety estimates and naive monolithic model checking. Our results show that our method is suited to verify stochastic RL policies.
- Abstract(参考訳): 本稿では,確率的強化学習(RL)ポリシーを検証する手法を提案する。
このアプローチは、アルゴリズムとその対応する環境がMarkovプロパティに一括して準拠する限り、任意のRLアルゴリズムと互換性がある。
この設定では、環境の将来状態は、その現在の状態と実行されたアクションにのみ依存し、以前の状態やアクションとは独立して実行されるべきである。
提案手法は,モデルチェックと呼ばれる検証手法をRLと統合し,マルコフ決定プロセス,訓練されたRLポリシ,確率計算木論理(PCTL)式を利用して,モデルチェッカー Storm を通じて検証可能な形式モデルを構築する。
提案手法の適用性を複数のベンチマークで実証し,決定論的安全性推定法と一意なモノリシックモデル検査法と比較した。
以上より,本手法は確率的RLポリシーの検証に適していることが示唆された。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Bayes-Adaptive Deep Model-Based Policy Optimisation [4.675381958034012]
本稿では,モデル不確実性を捕捉し,サンプル効率のよいポリシ最適化を実現する,ベイズ型(深度)モデルベース強化学習法(RoMBRL)を提案する。
ベイズ適応マルコフ決定過程(BAMDP)としてモデルに基づく政策最適化問題を定式化することを提案する。
また,RoMBRLは,サンプルの複雑度やタスク性能の観点から,多くの困難な制御ベンチマークタスクにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-29T21:17:25Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。