論文の概要: Formal Policy Synthesis for Continuous-Space Systems via Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2005.01319v2
- Date: Sun, 27 Sep 2020 11:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:41:30.400247
- Title: Formal Policy Synthesis for Continuous-Space Systems via Reinforcement
Learning
- Title(参考訳): 強化学習による連続空間システムの形式的ポリシー合成
- Authors: Milad Kazemi and Sadegh Soudjani
- Abstract要約: 有限メモリで決定論的な計算ポリシーに強化学習を適用する方法を示す。
我々は、学習した政策を最適な政策に収束させるために必要な仮定と理論を開発する。
本研究では,4次元のカートポールシステムと6次元のボート運転問題に対するアプローチを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies satisfaction of temporal properties on unknown stochastic
processes that have continuous state spaces. We show how reinforcement learning
(RL) can be applied for computing policies that are finite-memory and
deterministic using only the paths of the stochastic process. We address
properties expressed in linear temporal logic (LTL) and use their automaton
representation to give a path-dependent reward function maximised via the RL
algorithm. We develop the required assumptions and theories for the convergence
of the learned policy to the optimal policy in the continuous state space. To
improve the performance of the learning on the constructed sparse reward
function, we propose a sequential learning procedure based on a sequence of
labelling functions obtained from the positive normal form of the LTL
specification. We use this procedure to guide the RL algorithm towards a policy
that converges to an optimal policy under suitable assumptions on the process.
We demonstrate the approach on a 4-dim cart-pole system and 6-dim boat driving
problem.
- Abstract(参考訳): 本稿では,連続状態空間を持つ未知確率過程における時間特性の満足度について検討する。
本稿では、確率過程の経路のみを用いて有限メモリで決定論的な計算ポリシーに対して強化学習(RL)を適用する方法を示す。
線形時間論理(LTL)で表現された特性に対処し、そのオートマトン表現を用いて、RLアルゴリズムにより最大化された経路依存報酬関数を与える。
我々は,学習した政策を連続状態空間の最適政策に収束させるために必要な仮定と理論を開発する。
構築されたスパース報酬関数の学習性能を向上させるために,LTL仕様の正の正規形式から得られたラベル付け関数のシーケンスに基づく逐次学習手法を提案する。
我々はこの手順を用いて、RLアルゴリズムをプロセス上の適切な仮定の下で最適なポリシーに収束するポリシーへ導く。
本研究では,4次元のカートポールシステムと6次元のボート運転問題に対するアプローチを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - How does Your RL Agent Explore? An Optimal Transport Analysis of Occupancy Measure Trajectories [8.429001045596687]
我々は、RLアルゴリズムの学習過程を、トレーニング中に生成されたポリシーのシーケンスとして表現する。
次に、状態-作用占有度尺度の多様体に誘導される政策軌跡について検討する。
論文 参考訳(メタデータ) (2024-02-14T11:55:50Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。