論文の概要: Reinforcement Learning of Control Policy for Linear Temporal Logic
Specifications Using Limit-Deterministic Generalized B\"uchi Automata
- arxiv url: http://arxiv.org/abs/2001.04669v3
- Date: Thu, 26 Mar 2020 07:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:34:13.553253
- Title: Reinforcement Learning of Control Policy for Linear Temporal Logic
Specifications Using Limit-Deterministic Generalized B\"uchi Automata
- Title(参考訳): 極限決定論的一般化B\"内オートマタを用いた線形時間論理仕様制御の強化学習
- Authors: Ryohei Oura, Ami Sakakibara, Toshimitsu Ushio
- Abstract要約: 本文は,制御仕様を満たす制御ポリシーを合成するための新しい強化学習法を提案する。
制御系はマルコフ決定過程(MDP)によってモデル化されていると仮定する。
提案手法は,ディスカウント係数が十分近い場合に最適ポリシーを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This letter proposes a novel reinforcement learning method for the synthesis
of a control policy satisfying a control specification described by a linear
temporal logic formula. We assume that the controlled system is modeled by a
Markov decision process (MDP). We convert the specification to a
limit-deterministic generalized B\"uchi automaton (LDGBA) with several
accepting sets that accepts all infinite sequences satisfying the formula. The
LDGBA is augmented so that it explicitly records the previous visits to
accepting sets. We take a product of the augmented LDGBA and the MDP, based on
which we define a reward function. The agent gets rewards whenever state
transitions are in an accepting set that has not been visited for a certain
number of steps. Consequently, sparsity of rewards is relaxed and optimal
circulations among the accepting sets are learned. We show that the proposed
method can learn an optimal policy when the discount factor is sufficiently
close to one.
- Abstract(参考訳): 線形時間論理式で記述された制御仕様を満たす制御ポリシーを合成するための新しい強化学習法を提案する。
制御システムはマルコフ決定プロセス(MDP)によってモデル化されていると仮定する。
我々はこの仕様を、式を満たす無限列をすべて受け入れるいくつかの受け入れ集合を持つ極限決定論的一般化B\"uchi Automaticon (LDGBA) に変換する。
LDGBAは拡張され、前回の訪問を受信セットに明示的に記録する。
我々は報酬関数を定義するために拡張ldgbaとmdpの積を取ります。
エージェントは、状態遷移が特定の数回のステップで訪問されていない受信セットにあるとき、報酬を受け取る。
これにより、報酬のスパース性が緩和され、受理集合間の最適循環が学習される。
提案手法は,割引係数が十分に近い場合に最適なポリシーを学習できることを示す。
関連論文リスト
- Low-Rank MDPs with Continuous Action Spaces [47.9857762529495]
本研究では,このような手法を連続的な動作を伴う設定に拡張する問題について検討する。
アルゴリズムを変更せずに、動作が連続することを許された場合、同様のPAC境界が得られることを示す。
論文 参考訳(メタデータ) (2023-11-06T22:05:08Z) - Submodular Reinforcement Learning [77.97471858326077]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文 参考訳(メタデータ) (2022-01-02T04:22:01Z) - LTL-Constrained Steady-State Policy Synthesis [0.0]
マルコフ決定プロセス(MDP)とこれらすべての型を組み合わせた仕様について検討する。
マルチタイプの仕様を多次元の長期平均報酬に還元する統合ソリューションを提供する。
このアルゴリズムは一般の$omega$-regularプロパティにも拡張され、LDBAと同様にMDPのサイズで実行されます。
論文 参考訳(メタデータ) (2021-05-31T11:35:42Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。