論文の概要: Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications
- arxiv url: http://arxiv.org/abs/2109.13377v1
- Date: Mon, 27 Sep 2021 22:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 03:36:24.649356
- Title: Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications
- Title(参考訳): 信号時間論理仕様に基づくマルコフ決定過程の最適制御のためのモデル自由強化学習
- Authors: Krishna C. Kalagarla, Rahul Jain, Pierluigi Nuzzo
- Abstract要約: 有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
- 参考スコア(独自算出の注目度): 7.842869080999489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a model-free reinforcement learning algorithm to find an optimal
policy for a finite-horizon Markov decision process while guaranteeing a
desired lower bound on the probability of satisfying a signal temporal logic
(STL) specification. We propose a method to effectively augment the MDP state
space to capture the required state history and express the STL objective as a
reachability objective. The planning problem can then be formulated as a
finite-horizon constrained Markov decision process (CMDP). For a general finite
horizon CMDP problem with unknown transition probability, we develop a
reinforcement learning scheme that can leverage any model-free RL algorithm to
provide an approximately optimal policy out of the general space of
non-stationary randomized policies. We illustrate the effectiveness of our
approach in the context of robotic motion planning for complex missions under
uncertainty and performance objectives.
- Abstract(参考訳): 本稿では,信号時間論理(STL)仕様を満たす確率に対して,所望の下限を保証しつつ,有限水平マルコフ決定プロセスの最適ポリシを求めるモデルフリー強化学習アルゴリズムを提案する。
本稿では,mdp状態空間を効果的に拡張し,要求状態履歴をキャプチャし,stl目標を到達可能性目標として表現する方法を提案する。
計画問題は有限水平制約マルコフ決定過程(CMDP)として定式化することができる。
遷移確率が未知な一般有限地平面CMDP問題に対して、モデルのないRLアルゴリズムを用いて、非定常ランダム化ポリシーの一般空間からほぼ最適なポリシーを提供することができる強化学習手法を開発する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画におけるアプローチの有効性について述べる。
関連論文リスト
- Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Deep reinforcement learning under signal temporal logic constraints
using Lagrangian relaxation [0.0]
一般的には,決定に制約を課すことができる。
時間的高次タスクを完了させるために制約のある最適決定問題を考える。
ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-21T00:56:25Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Formal Controller Synthesis for Continuous-Space MDPs via Model-Free
Reinforcement Learning [1.0928470926399565]
連続空間マルコフ決定プロセス(MDP)のポリシーを合成する新しい強化学習手法を提案する。
この論文の重要な貢献は、有限のMDP上での強化学習に古典的な収束結果を活用することである。
本稿では,学習を高速化するために,新たな報酬形成手法を提案する。
論文 参考訳(メタデータ) (2020-03-02T08:29:36Z) - Stochastic Finite State Control of POMDPs with LTL Specifications [14.163899014007647]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での自律的な意思決定のためのモデリングフレームワークを提供する。
本稿では,POMDPに対する準最適有限状態制御器(sFSC)の合成に関する定量的問題について考察する。
本稿では,sFSC サイズが制御される有界ポリシアルゴリズムと,連続的な繰り返しにより制御器の性能が向上する任意の時間アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T18:10:47Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。