Fugu-MT 論文翻訳(概要): Compositional Policy Learning in Stochastic Control Systems with Formal Guarantees

論文の概要: Compositional Policy Learning in Stochastic Control Systems with Formal Guarantees

arxiv url: http://arxiv.org/abs/2312.01456v1
Date: Sun, 3 Dec 2023 17:04:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 17:22:03.576218
Title: Compositional Policy Learning in Stochastic Control Systems with Formal Guarantees
Title（参考訳）: 形式保証付き確率制御系における構成政策学習
Authors: {\DJ}or{\dj}e \v{Z}ikeli\'c (1), Mathias Lechner (2), Abhinav Verma (3), Krishnendu Chatterjee (1), Thomas A. Henzinger (1) ((1) Institute of Science and Technology Austria, (2) Massachusetts Institute of Technology, (3) The Pennsylvania State University)
Abstract要約: 強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning has shown promising results in learning neural network policies for complicated control tasks. However, the lack of formal guarantees about the behavior of such policies remains an impediment to their deployment. We propose a novel method for learning a composition of neural network policies in stochastic environments, along with a formal certificate which guarantees that a specification over the policy's behavior is satisfied with the desired probability. Unlike prior work on verifiable RL, our approach leverages the compositional nature of logical specifications provided in SpectRL, to learn over graphs of probabilistic reach-avoid specifications. The formal guarantees are provided by learning neural network policies together with reach-avoid supermartingales (RASM) for the graph's sub-tasks and then composing them into a global policy. We also derive a tighter lower bound compared to previous work on the probability of reach-avoidance implied by a RASM, which is required to find a compositional policy with an acceptable probabilistic threshold for complex tasks with multiple edge policies. We implement a prototype of our approach and evaluate it on a Stochastic Nine Rooms environment.
Abstract（参考訳）: 強化学習は複雑な制御タスクのためのニューラルネットワークポリシーの学習に有望な結果をもたらす。しかし、こうした政策の行動に関する正式な保証がないことは、その展開に障害となる。本稿では,確率的環境下でニューラルネットワークポリシの構成を学習するための新しい手法と,その動作に関する仕様が所望の確率で満たされることを保証する形式的証明を提案する。検証可能なRLに関する以前の研究とは異なり、我々のアプローチはSpectRLで提供される論理仕様の構成特性を利用して確率的リーチ・アビド仕様のグラフを学習する。正式な保証は、グラフのサブタスクに対するリーチアビドスーパーマーチンチャル(RASM)とともにニューラルネットワークポリシを学習し、それらをグローバルポリシに構成することで提供される。また、複数のエッジポリシを持つ複雑なタスクに対して許容可能な確率的しきい値を持つ構成ポリシーを見つける必要があるRASMによる到達回避確率に関する以前の研究と比較して、より低い境界を導出する。提案手法のプロトタイプを実装し,確率的9室環境で評価する。

関連論文リスト

Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本稿では,モデルフリーのエピソード設定において,新しいタスク固有ポリシーの安全性特性に違反する確率を限定した理論的結果を示す。また,タスク固有の性能と引き換えに安全保証を交換できるSPoRtを提案する。
論文参考訳（メタデータ） (2025-04-08T19:09:07Z)
Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文参考訳（メタデータ） (2025-01-08T23:22:08Z)
Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文参考訳（メタデータ） (2024-11-15T02:46:55Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-19T15:54:38Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文参考訳（メタデータ） (2022-01-10T23:55:04Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文参考訳（メタデータ） (2020-06-10T16:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。