論文の概要: Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees
- arxiv url: http://arxiv.org/abs/2312.01456v1
- Date: Sun, 3 Dec 2023 17:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:22:03.576218
- Title: Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees
- Title(参考訳): 形式保証付き確率制御系における構成政策学習
- Authors: {\DJ}or{\dj}e \v{Z}ikeli\'c (1), Mathias Lechner (2), Abhinav Verma
(3), Krishnendu Chatterjee (1), Thomas A. Henzinger (1) ((1) Institute of
Science and Technology Austria, (2) Massachusetts Institute of Technology,
(3) The Pennsylvania State University)
- Abstract要約: 強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has shown promising results in learning neural network
policies for complicated control tasks. However, the lack of formal guarantees
about the behavior of such policies remains an impediment to their deployment.
We propose a novel method for learning a composition of neural network policies
in stochastic environments, along with a formal certificate which guarantees
that a specification over the policy's behavior is satisfied with the desired
probability. Unlike prior work on verifiable RL, our approach leverages the
compositional nature of logical specifications provided in SpectRL, to learn
over graphs of probabilistic reach-avoid specifications. The formal guarantees
are provided by learning neural network policies together with reach-avoid
supermartingales (RASM) for the graph's sub-tasks and then composing them into
a global policy. We also derive a tighter lower bound compared to previous work
on the probability of reach-avoidance implied by a RASM, which is required to
find a compositional policy with an acceptable probabilistic threshold for
complex tasks with multiple edge policies. We implement a prototype of our
approach and evaluate it on a Stochastic Nine Rooms environment.
- Abstract(参考訳): 強化学習は複雑な制御タスクのためのニューラルネットワークポリシーの学習に有望な結果をもたらす。
しかし、こうした政策の行動に関する正式な保証がないことは、その展開に障害となる。
本稿では,確率的環境下でニューラルネットワークポリシの構成を学習するための新しい手法と,その動作に関する仕様が所望の確率で満たされることを保証する形式的証明を提案する。
検証可能なRLに関する以前の研究とは異なり、我々のアプローチはSpectRLで提供される論理仕様の構成特性を利用して確率的リーチ・アビド仕様のグラフを学習する。
正式な保証は、グラフのサブタスクに対するリーチアビドスーパーマーチンチャル(RASM)とともにニューラルネットワークポリシを学習し、それらをグローバルポリシに構成することで提供される。
また、複数のエッジポリシを持つ複雑なタスクに対して許容可能な確率的しきい値を持つ構成ポリシーを見つける必要があるRASMによる到達回避確率に関する以前の研究と比較して、より低い境界を導出する。
提案手法のプロトタイプを実装し,確率的9室環境で評価する。
関連論文リスト
- Interior Point Constrained Reinforcement Learning with Global
Convergence Guarantees [8.312636217460039]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、学習中の制約満足度を保証するアルゴリズムの開発に注力する。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Learning Control Policies for Stochastic Systems with Reach-avoid
Guarantees [20.045860624444494]
本研究では,形式的リーチ回避保証付き離散時間非線形力学系における学習制御装置の問題点について検討する。
我々は,本研究で導入した新しい概念であるRASM(リーチ・アビド・スーパーマーチンゲール)の形で証明書を学習する。
当社のアプローチでは,コントロールポリシをスクラッチから学習したり,固定されたコントロールポリシのリーチ回避仕様を検証したり,事前訓練されたポリシを微調整したり,といった,いくつかの重要な問題を解決しています。
論文 参考訳(メタデータ) (2022-10-11T10:02:49Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。