論文の概要: Reinforcement Learning for Task Specifications with Action-Constraints
- arxiv url: http://arxiv.org/abs/2201.00286v1
- Date: Sun, 2 Jan 2022 04:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 23:00:22.177115
- Title: Reinforcement Learning for Task Specifications with Action-Constraints
- Title(参考訳): 行動制約を伴うタスク仕様の強化学習
- Authors: Arun Raman, Keerthan Shagrithaya and Shalabh Bhatnagar
- Abstract要約: 有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
- 参考スコア(独自算出の注目度): 4.046919218061427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we use concepts from supervisory control theory of discrete
event systems to propose a method to learn optimal control policies for a
finite-state Markov Decision Process (MDP) in which (only) certain sequences of
actions are deemed unsafe (respectively safe). We assume that the set of action
sequences that are deemed unsafe and/or safe are given in terms of a
finite-state automaton; and propose a supervisor that disables a subset of
actions at every state of the MDP so that the constraints on action sequence
are satisfied. Then we present a version of the Q-learning algorithm for
learning optimal policies in the presence of non-Markovian action-sequence and
state constraints, where we use the development of reward machines to handle
the state constraints. We illustrate the method using an example that captures
the utility of automata-based methods for non-Markovian state and action
specifications for reinforcement learning and show the results of simulations
in this setting.
- Abstract(参考訳): 本稿では,離散事象システムの監視制御理論の概念を用いて,有限状態マルコフ決定過程(mdp)の最適制御方針を学習する方法を提案する。
我々は、安全で安全でないと考えられる一連のアクションシーケンスが有限状態オートマトンによって与えられると仮定し、アクションシーケンスの制約を満たすためにmdpの各状態におけるアクションのサブセットを無効にするスーパーバイザを提案する。
次に,非マルコフ的行動系列と状態制約の存在下での最適方針学習のためのq-learningアルゴリズムのバージョンを提案する。
本手法は,強化学習のための非マルコフ状態および動作仕様のためのオートマトンベース手法の有用性を例示し,シミュレーション結果を示す。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Code Models are Zero-shot Precondition Reasoners [83.8561159080672]
シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。
本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-11-16T06:19:27Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Automatic Exploration Process Adjustment for Safe Reinforcement Learning
with Joint Chance Constraint Satisfaction [2.127049691404299]
安全強化学習アルゴリズムのための探索過程の自動調整手法を提案する。
提案手法では,探索入力が,その状態とその予測値に応じて毎回使用されるか否かを自動的に選択する。
提案手法は, 予め特定された確率, すなわち, 毎回共同確率制約の満足度と制約の満足度を理論的に保証する。
論文 参考訳(メタデータ) (2021-03-05T13:30:53Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - An Abstraction-based Method to Verify Multi-Agent Deep
Reinforcement-Learning Behaviours [8.95294551927446]
マルチエージェント強化学習(RL)はしばしば、学習エージェントの安全な行動を保証するために苦労する。
本稿では,形式検証と(深度)RLアルゴリズムを組み合わせることで,形式化された安全制約の満足度を保証する手法を提案する。
論文 参考訳(メタデータ) (2021-02-02T11:12:30Z) - Learning to Satisfy Unknown Constraints in Iterative MPC [3.306595429364865]
本稿では,未知の多面体状態制約を満たすために繰り返し学習する線形時間不変系の制御設計法を提案する。
繰り返しタスクの各イテレーションにおいて、収集された閉ループ軌跡データを用いて未知の環境制約を推定する。
MPCコントローラは、推定された制約セットを確実に満たすように設計されている。
論文 参考訳(メタデータ) (2020-06-09T05:19:40Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。