論文の概要: Sample Efficient Model-free Reinforcement Learning from LTL
Specifications with Optimality Guarantees
- arxiv url: http://arxiv.org/abs/2305.01381v2
- Date: Wed, 3 May 2023 12:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 11:12:43.748073
- Title: Sample Efficient Model-free Reinforcement Learning from LTL
Specifications with Optimality Guarantees
- Title(参考訳): 最適保証付きLTL仕様からのモデルフリー強化学習のサンプル
- Authors: Daqian Shao and Marta Kwiatkowska
- Abstract要約: 未知のシステムに対して最適なポリシーを効率的に学習するモデルフリー強化学習(RL)手法を提案する。
また、最適性を確保するために鍵パラメータの選択に関する理論的結果も改善した。
- 参考スコア(独自算出の注目度): 17.69385864791265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear Temporal Logic (LTL) is widely used to specify high-level objectives
for system policies, and it is highly desirable for autonomous systems to learn
the optimal policy with respect to such specifications. However, learning the
optimal policy from LTL specifications is not trivial. We present a model-free
Reinforcement Learning (RL) approach that efficiently learns an optimal policy
for an unknown stochastic system, modelled using Markov Decision Processes
(MDPs). We propose a novel and more general product MDP, reward structure and
discounting mechanism that, when applied in conjunction with off-the-shelf
model-free RL algorithms, efficiently learn the optimal policy that maximizes
the probability of satisfying a given LTL specification with optimality
guarantees. We also provide improved theoretical results on choosing the key
parameters in RL to ensure optimality. To directly evaluate the learned policy,
we adopt probabilistic model checker PRISM to compute the probability of the
policy satisfying such specifications. Several experiments on various tabular
MDP environments across different LTL tasks demonstrate the improved sample
efficiency and optimal policy convergence.
- Abstract(参考訳): 線形時間論理(LTL)はシステムポリシーの高レベルな目的を規定するために広く用いられており、そのような仕様に関して最適なポリシーを学ぶことが自律システムにとって非常に望ましい。
しかし、LTL仕様から最適なポリシーを学ぶことは簡単ではない。
本稿では,マルコフ決定過程(mdps)を用いてモデル化した未知確率システムの最適方針を効率的に学習するモデルフリー強化学習(rl)手法を提案する。
そこで,本研究では,市販のモデルフリーrlアルゴリズムを併用することで,所定のltl仕様を満たす確率を最大化する最適ポリシーを効率的に学習する,より汎用的な製品mdp,報酬構造,割引機構を提案する。
また、最適性を確保するため、RLにおける鍵パラメータの選択に関する理論的結果も改善した。
学習したポリシーを直接評価するために,確率的モデルチェッカープリズムを採用し,それらの仕様を満たすポリシーの確率を計算する。
様々なLTLタスクにおける表型MDP環境に関するいくつかの実験は、サンプル効率と最適政策収束性の改善を実証している。
関連論文リスト
- Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Optimistic Natural Policy Gradient: a Simple Efficient Policy
Optimization Framework for Online RL [23.957148537567146]
本稿では,オンラインRLのための最適化NPGという,シンプルな効率的なポリシー最適化フレームワークを提案する。
$d$次元線形 MDP の場合、Optimistic NPG は計算効率が良く、$tildeO(d2/varepsilon3)$サンプル内で $varepsilon$-Optimal Policy を学ぶ。
論文 参考訳(メタデータ) (2023-05-18T15:19:26Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Tailored neural networks for learning optimal value functions in MPC [0.0]
学習ベースの予測制御は、最適化ベースのMPCに代わる有望な代替手段である。
本稿では、線形 MPC に対して、最適値関数と Q-函数を表すために、同様の結果を与える。
論文 参考訳(メタデータ) (2021-12-07T20:34:38Z) - Model-Free Learning of Safe yet Effective Controllers [11.876140218511157]
私達はまた有効な安全な制御方針を学ぶ問題を研究します。
まず,安全を確保する確率を最大化する方針を学習するモデルフリー強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-26T17:05:12Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。