論文の概要: Wasserstein Auto-encoded MDPs: Formal Verification of Efficiently
Distilled RL Policies with Many-sided Guarantees
- arxiv url: http://arxiv.org/abs/2303.12558v1
- Date: Wed, 22 Mar 2023 13:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:07:18.497063
- Title: Wasserstein Auto-encoded MDPs: Formal Verification of Efficiently
Distilled RL Policies with Many-sided Guarantees
- Title(参考訳): ワッサースタイン自動符号化MDP:多面的保証付き高効率蒸留RL政策の形式的検証
- Authors: Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez
- Abstract要約: 変分マルコフ決定過程(VAE-MDPs)は、任意のRLポリシーから検証可能なコントローラを蒸留するための信頼性の高いフレームワークを提供する離散潜在空間モデルである。
本稿では, 原政策を実行するエージェントの挙動と蒸留政策との最適輸送のペナル化形式を最小化することにより, これらの問題を解決する潜在空間モデルであるWasserstein Auto-encoded MDP(WAE-MDP)を紹介する。
実験の結果, 蒸留法が10倍高速であるのに加えて, 潜水モデルの品質も良好であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep reinforcement learning (DRL) has many success stories, the
large-scale deployment of policies learned through these advanced techniques in
safety-critical scenarios is hindered by their lack of formal guarantees.
Variational Markov Decision Processes (VAE-MDPs) are discrete latent space
models that provide a reliable framework for distilling formally verifiable
controllers from any RL policy. While the related guarantees address relevant
practical aspects such as the satisfaction of performance and safety
properties, the VAE approach suffers from several learning flaws (posterior
collapse, slow learning speed, poor dynamics estimates), primarily due to the
absence of abstraction and representation guarantees to support latent
optimization. We introduce the Wasserstein auto-encoded MDP (WAE-MDP), a latent
space model that fixes those issues by minimizing a penalized form of the
optimal transport between the behaviors of the agent executing the original
policy and the distilled policy, for which the formal guarantees apply. Our
approach yields bisimulation guarantees while learning the distilled policy,
allowing concrete optimization of the abstraction and representation model
quality. Our experiments show that, besides distilling policies up to 10 times
faster, the latent model quality is indeed better in general. Moreover, we
present experiments from a simple time-to-failure verification algorithm on the
latent space. The fact that our approach enables such simple verification
techniques highlights its applicability.
- Abstract(参考訳): 深層強化学習(DRL)には多くの成功談があるが、安全クリティカルなシナリオにおけるこれらの高度な手法を通じて学んだ政策の大規模展開は、正式な保証の欠如によって妨げられている。
変分マルコフ決定過程(VAE-MDPs)は、任意のRLポリシーから正式な検証可能なコントローラを蒸留するための信頼性の高いフレームワークを提供する離散潜在空間モデルである。
関連する保証は、性能と安全性の満足度などの関連する実用的側面に対処するが、VAEアプローチは、主に遅延最適化をサポートするための抽象化や表現保証が欠如していることから、いくつかの学習欠陥(後方崩壊、遅い学習速度、低速なダイナミクス推定)に悩まされている。
本稿では, 元の政策を実行するエージェントの挙動と, 正式な保証が適用される蒸留政策との間の最適輸送のペナル化形式を最小化し, それらの問題を解決する潜在空間モデルであるWasserstein Auto-encoded MDP(WAE-MDP)を紹介する。
このアプローチは蒸留方針を学習しながらバイシミュレーションを保証し,抽象化と表現モデルの質を具体的に最適化する。
実験の結果, 蒸留法が10倍高速であるのに加えて, 潜水モデルの品質も高いことがわかった。
さらに, 潜在空間上での簡易な時間-損失検証アルゴリズムを用いて実験を行う。
このような簡単な検証手法が実現できたという事実は、その適用性を強調している。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Safe Policy Improvement in Constrained Markov Decision Processes [10.518340300810504]
本稿では,形式的要件の集合からの報酬形成と安全なポリシー更新という2つの課題を解くことで,合成問題の解決法を提案する。
前者に対しては,タスク仕様に準拠したスカラー報酬信号を定義する自動報酬生成手法を提案する。
後者では,高信頼度保証を伴う安全な方法でポリシーが改善されることを保証するアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-10-20T13:29:32Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Distillation of RL Policies with Formal Guarantees via Variational
Abstraction of Markov Decision Processes (Technical Report) [0.0]
我々は、強化学習(RL)を通して学んだ政策の文脈で、政策の単純化と検証の課題を考える。
未知の環境と学習された離散潜在モデルの間に新しい双シミュレーション境界を導出する。
本稿では、現状のRLを用いて得られたポリシーを用いて、ほぼ正しいバイシミュレーション保証を持つ離散潜在モデルを生成する変分オートエンコーダを効率的に訓練する方法を示す。
論文 参考訳(メタデータ) (2021-12-17T17:57:32Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - An Abstraction-based Method to Verify Multi-Agent Deep
Reinforcement-Learning Behaviours [8.95294551927446]
マルチエージェント強化学習(RL)はしばしば、学習エージェントの安全な行動を保証するために苦労する。
本稿では,形式検証と(深度)RLアルゴリズムを組み合わせることで,形式化された安全制約の満足度を保証する手法を提案する。
論文 参考訳(メタデータ) (2021-02-02T11:12:30Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。