論文の概要: Learning Optimal Strategies for Temporal Tasks in Stochastic Games
- arxiv url: http://arxiv.org/abs/2102.04307v1
- Date: Mon, 8 Feb 2021 16:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:52:43.381544
- Title: Learning Optimal Strategies for Temporal Tasks in Stochastic Games
- Title(参考訳): 確率ゲームにおける時間課題の最適戦略の学習
- Authors: Alper Kamil Bozkurt, Yu Wang, Miroslav Pajic
- Abstract要約: ゲームにおける所望タスクの仕様の満足度を最大化する最適コントローラ戦略を学習する手法を提案する。
提案手法は,与えられたタスクから導出される決定論的オートマトンと,オートマトンの受け入れ条件に基づいて報奨機を用いて製品ゲームを構築する。
- 参考スコア(独自算出の注目度): 11.876140218511157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear temporal logic (LTL) is widely used to formally specify complex tasks
for autonomy. Unlike usual tasks defined by reward functions only, LTL tasks
are noncumulative and require memory-dependent strategies. In this work, we
introduce a method to learn optimal controller strategies that maximize the
satisfaction probability of LTL specifications of the desired tasks in
stochastic games, which are natural extensions of Markov Decision Processes
(MDPs) to systems with adversarial inputs. Our approach constructs a product
game using the deterministic automaton derived from the given LTL task and a
reward machine based on the acceptance condition of the automaton; thus,
allowing for the use of a model-free RL algorithm to learn an optimal
controller strategy. Since the rewards and the transition probabilities of the
reward machine do not depend on the number of sets defining the acceptance
condition, our approach is scalable to a wide range of LTL tasks, as we
demonstrate on several case studies.
- Abstract(参考訳): 線形時間論理(LTL)は、自律性のための複雑なタスクを正式に指定するために広く使われている。
報酬関数によって定義される通常のタスクとは異なり、ltlタスクは累積的ではなく、メモリ依存の戦略を必要とする。
本研究では,マルコフ決定過程(MDP)の自然な拡張である確率ゲームにおいて,所望のタスクのLTL仕様の満足度を最大化する最適制御戦略を,逆入力を持つシステムに学習する手法を提案する。
このアプローチは、与えられたLTLタスクから派生した決定論的オートマトンと、オートマトンの受け入れ条件に基づく報酬マシンを用いて製品ゲームを構築するため、モデルフリーRLアルゴリズムを使用して最適なコントローラ戦略を学ぶことができる。
報奨機の報酬と遷移確率は、受理条件を定義する集合の数に依存しないので、いくつかのケーススタディで示されているように、我々のアプローチは幅広いLTLタスクにスケーラブルである。
関連論文リスト
- Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications [2.496282558123411]
本稿では、線形時間論理(LTL)として表される複雑な高次タスクを満たすための目標駆動ナビゲーションの連続時間制御について検討する。
基礎となる力学系が未知である深層強化学習(DRL)を用いたモデルフリー合成フレームワーク(不透明ボックス)を提案する。
論文 参考訳(メタデータ) (2022-10-03T18:32:20Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Stochastic Finite State Control of POMDPs with LTL Specifications [14.163899014007647]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での自律的な意思決定のためのモデリングフレームワークを提供する。
本稿では,POMDPに対する準最適有限状態制御器(sFSC)の合成に関する定量的問題について考察する。
本稿では,sFSC サイズが制御される有界ポリシアルゴリズムと,連続的な繰り返しにより制御器の性能が向上する任意の時間アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T18:10:47Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。