論文の概要: Reinforcement Learning of Control Policy for Linear Temporal Logic
Specifications Using Limit-Deterministic Generalized B\"uchi Automata
- arxiv url: http://arxiv.org/abs/2001.04669v3
- Date: Thu, 26 Mar 2020 07:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:34:13.553253
- Title: Reinforcement Learning of Control Policy for Linear Temporal Logic
Specifications Using Limit-Deterministic Generalized B\"uchi Automata
- Title(参考訳): 極限決定論的一般化B\"内オートマタを用いた線形時間論理仕様制御の強化学習
- Authors: Ryohei Oura, Ami Sakakibara, Toshimitsu Ushio
- Abstract要約: 本文は,制御仕様を満たす制御ポリシーを合成するための新しい強化学習法を提案する。
制御系はマルコフ決定過程(MDP)によってモデル化されていると仮定する。
提案手法は,ディスカウント係数が十分近い場合に最適ポリシーを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This letter proposes a novel reinforcement learning method for the synthesis
of a control policy satisfying a control specification described by a linear
temporal logic formula. We assume that the controlled system is modeled by a
Markov decision process (MDP). We convert the specification to a
limit-deterministic generalized B\"uchi automaton (LDGBA) with several
accepting sets that accepts all infinite sequences satisfying the formula. The
LDGBA is augmented so that it explicitly records the previous visits to
accepting sets. We take a product of the augmented LDGBA and the MDP, based on
which we define a reward function. The agent gets rewards whenever state
transitions are in an accepting set that has not been visited for a certain
number of steps. Consequently, sparsity of rewards is relaxed and optimal
circulations among the accepting sets are learned. We show that the proposed
method can learn an optimal policy when the discount factor is sufficiently
close to one.
- Abstract(参考訳): 線形時間論理式で記述された制御仕様を満たす制御ポリシーを合成するための新しい強化学習法を提案する。
制御システムはマルコフ決定プロセス(MDP)によってモデル化されていると仮定する。
我々はこの仕様を、式を満たす無限列をすべて受け入れるいくつかの受け入れ集合を持つ極限決定論的一般化B\"uchi Automaticon (LDGBA) に変換する。
LDGBAは拡張され、前回の訪問を受信セットに明示的に記録する。
我々は報酬関数を定義するために拡張ldgbaとmdpの積を取ります。
エージェントは、状態遷移が特定の数回のステップで訪問されていない受信セットにあるとき、報酬を受け取る。
これにより、報酬のスパース性が緩和され、受理集合間の最適循環が学習される。
提案手法は,割引係数が十分に近い場合に最適なポリシーを学習できることを示す。
関連論文リスト
- Preference-Based Planning in Stochastic Environments: From Partially-Ordered Temporal Goals to Most Preferred Policies [25.731912021122287]
マルコフ決定過程としてモデル化されたシステムは、時間的に拡張された一連の目標に対して部分的に順序づけられた選好を考慮に入れている。
部分的に順序づけられた選好を計画するために、時間的目標に対する選好をMDPの政策に対する選好にマッピングする順序理論を導入する。
順序付けの下で最も好まれるポリシーは、MDP内の有限経路上の非支配確率分布を誘導する。
論文 参考訳(メタデータ) (2024-03-27T02:46:09Z) - Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文 参考訳(メタデータ) (2022-01-02T04:22:01Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - LTL-Constrained Steady-State Policy Synthesis [0.0]
マルコフ決定プロセス(MDP)とこれらすべての型を組み合わせた仕様について検討する。
マルチタイプの仕様を多次元の長期平均報酬に還元する統合ソリューションを提供する。
このアルゴリズムは一般の$omega$-regularプロパティにも拡張され、LDBAと同様にMDPのサイズで実行されます。
論文 参考訳(メタデータ) (2021-05-31T11:35:42Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。