論文の概要: Verifiable RNN-Based Policies for POMDPs Under Temporal Logic
Constraints
- arxiv url: http://arxiv.org/abs/2002.05615v1
- Date: Thu, 13 Feb 2020 16:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:22:21.643668
- Title: Verifiable RNN-Based Policies for POMDPs Under Temporal Logic
Constraints
- Title(参考訳): 時間論理制約下におけるPMDPの検証可能なRNN法
- Authors: Steven Carr, Nils Jansen and Ufuk Topcu
- Abstract要約: RNNベースのポリシーの適用の大きな欠点は、行動仕様の満足度に関する正式な保証を提供することの難しさである。
形式的手法と機械学習の技法を統合することにより,RNNから有限状態制御器を自動的に抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 31.829932777445894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks (RNNs) have emerged as an effective representation
of control policies in sequential decision-making problems. However, a major
drawback in the application of RNN-based policies is the difficulty in
providing formal guarantees on the satisfaction of behavioral specifications,
e.g. safety and/or reachability. By integrating techniques from formal methods
and machine learning, we propose an approach to automatically extract a
finite-state controller (FSC) from an RNN, which, when composed with a
finite-state system model, is amenable to existing formal verification tools.
Specifically, we introduce an iterative modification to the so-called quantized
bottleneck insertion technique to create an FSC as a randomized policy with
memory. For the cases in which the resulting FSC fails to satisfy the
specification, verification generates diagnostic information. We utilize this
information to either adjust the amount of memory in the extracted FSC or
perform focused retraining of the RNN. While generally applicable, we detail
the resulting iterative procedure in the context of policy synthesis for
partially observable Markov decision processes (POMDPs), which is known to be
notoriously hard. The numerical experiments show that the proposed approach
outperforms traditional POMDP synthesis methods by 3 orders of magnitude within
2% of optimal benchmark values.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は、シーケンシャルな意思決定問題における制御ポリシーの効果的な表現として登場した。
しかし、RNNベースのポリシーの適用の大きな欠点は、安全や到達可能性といった行動仕様の満足度に関する正式な保証を提供することの難しさである。
本稿では,形式的手法と機械学習の技術を統合することにより,有限状態制御器(fsc)をrnnから自動的に抽出する手法を提案する。
具体的には,メモリを用いたランダム化ポリシとしてfscを作成するために,いわゆる量子化ボトルネック挿入手法を反復的に修正する。
結果のFSCが仕様を満たすことができない場合、検証は診断情報を生成する。
我々はこの情報を利用して抽出されたFSCのメモリ量を調整するか、RNNの集中的なリトレーニングを行う。
一般に適用されるが、部分的に観察可能なマルコフ決定プロセス(POMDP)のポリシー合成の文脈において、結果として生じる反復手順について詳述する。
数値実験により,提案手法はベンチマーク値の2%以内の3桁の精度で従来のPMDP合成法より優れていることが示された。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Weighted Automata Extraction and Explanation of Recurrent Neural
Networks for Natural Language Tasks [15.331024247043999]
リカレントニューラルネットワーク(RNN)はシーケンシャルなデータ処理において大きな成功を収めていますが、その動作を理解し分析することは大きな課題です。
本稿では,自然言語タスクの制限に対処するために,重み付き有限オートマタ(WFA)抽出と説明を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-24T19:16:56Z) - Learning Stochastic Parametric Differentiable Predictive Control
Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文 参考訳(メタデータ) (2022-03-02T22:46:32Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Chance-Constrained Control with Lexicographic Deep Reinforcement
Learning [77.34726150561087]
本稿では,レキシックなDeep Reinforcement Learning(DeepRL)に基づく確率制約マルコフ決定プロセスを提案する。
有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。
論文 参考訳(メタデータ) (2020-10-19T13:09:14Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - Point-Based Methods for Model Checking in Partially Observable Markov
Decision Processes [36.07746952116073]
部分的に観測可能なマルコフ決定過程(POMDP)において線形時間論理式を満たすポリシーを合成する手法を提案する。
本稿では,所望の論理式を満たす最大確率を効率的に近似するために,ポイントベースの値反復法を提案する。
我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。
論文 参考訳(メタデータ) (2020-01-11T23:09:25Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。