論文の概要: A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs
- arxiv url: http://arxiv.org/abs/2310.12248v1
- Date: Wed, 18 Oct 2023 18:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 18:06:01.776720
- Title: A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs
- Title(参考訳): MDPにおけるLTLとOmega-regular ObjectiveのPAC学習アルゴリズム
- Authors: Mateo Perez, Fabio Somenzi, Ashutosh Trivedi
- Abstract要約: マルコフ決定過程におけるオメガ正則目的に対するモデルベース近似ほぼ正の学習アルゴリズムを提案する。
従来の手法とは異なり,本アルゴリズムはシステムのサンプル軌跡から学習し,システムのトポロジに関する事前知識を必要としない。
- 参考スコア(独自算出の注目度): 5.946838062187346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear temporal logic (LTL) and omega-regular objectives -- a superset of LTL
-- have seen recent use as a way to express non-Markovian objectives in
reinforcement learning. We introduce a model-based probably approximately
correct (PAC) learning algorithm for omega-regular objectives in Markov
decision processes. Unlike prior approaches, our algorithm learns from sampled
trajectories of the system and does not require prior knowledge of the system's
topology.
- Abstract(参考訳): リニア時間論理(LTL)とオメガ規則目的(LTLのスーパーセット)は、近年、強化学習における非マルコフ的目的を表現する手段として使われている。
マルコフ決定過程におけるオメガ正規目標に対するモデルベース近似ほぼ正の学習アルゴリズムを提案する。
従来の手法とは異なり,本アルゴリズムはシステムのサンプル軌跡から学習し,システムのトポロジに関する事前知識を必要としない。
関連論文リスト
- Regret-Free Reinforcement Learning for LTL Specifications [6.342676126028222]
強化学習は、未知のダイナミクスを持つシステムの最適制御ポリシーを学習するための有望な方法である。
現在のRLベースの手法は保証のみを提供しており、学習フェーズにおける過渡的なパフォーマンスについての洞察を与えていない。
マルコフ決定プロセス上の仕様の一般的なクラスに対処するコントローラを学習するための,最初の後悔のないオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-18T20:01:45Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP [1.8262547855491456]
連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。
本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-16T17:45:38Z) - Computably Continuous Reinforcement-Learning Objectives are
PAC-learnable [12.700911432945151]
強化学習では、割引と有限水平累積報酬を最大化する古典的な目的はPAC学習可能である。
近年、研究者は古典的な累積報酬を超える目的とそれに対応する強化学習アルゴリズムを導入している。
本研究は, 汎用強化学習目標のPAC学習性を示す。
論文 参考訳(メタデータ) (2023-03-09T16:05:10Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Reinforcement Learning for General LTL Objectives Is Intractable [10.69663517250214]
我々は、マルコフ決定プロセス(PACMDP)フレームワークにおいて、おそらく正しい学習の下で問題を定式化する。
この結果から, 強化学習アルゴリズムでは, 学習ポリシーの性能に対するPAC-MDP保証を得ることは不可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-24T18:26:13Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。