論文の概要: Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP
- arxiv url: http://arxiv.org/abs/2303.09528v1
- Date: Thu, 16 Mar 2023 17:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:17:50.577396
- Title: Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP
- Title(参考訳): 連続時間MDPにおけるOmega-Regular Specificationの強化学習
- Authors: Amin Falah, Shibashis Guha, Ashutosh Trivedi
- Abstract要約: 連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。
本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
- 参考スコア(独自算出の注目度): 1.8262547855491456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time Markov decision processes (CTMDPs) are canonical models to
express sequential decision-making under dense-time and stochastic
environments. When the stochastic evolution of the environment is only
available via sampling, model-free reinforcement learning (RL) is the
algorithm-of-choice to compute optimal decision sequence. RL, on the other
hand, requires the learning objective to be encoded as scalar reward signals.
Since doing such translations manually is both tedious and error-prone, a
number of techniques have been proposed to translate high-level objectives
(expressed in logic or automata formalism) to scalar rewards for discrete-time
Markov decision processes (MDPs). Unfortunately, no automatic translation
exists for CTMDPs.
We consider CTMDP environments against the learning objectives expressed as
omega-regular languages. Omega-regular languages generalize regular languages
to infinite-horizon specifications and can express properties given in popular
linear-time logic LTL. To accommodate the dense-time nature of CTMDPs, we
consider two different semantics of omega-regular objectives: 1) satisfaction
semantics where the goal of the learner is to maximize the probability of
spending positive time in the good states, and 2) expectation semantics where
the goal of the learner is to optimize the long-run expected average time spent
in the ``good states" of the automaton. We present an approach enabling correct
translation to scalar reward signals that can be readily used by off-the-shelf
RL algorithms for CTMDPs. We demonstrate the effectiveness of the proposed
algorithms by evaluating it on some popular CTMDP benchmarks with omega-regular
objectives.
- Abstract(参考訳): 連続時間マルコフ決定プロセス(ctmdps)は、密集時間および確率的環境下での逐次意思決定を表現する標準モデルである。
環境の確率的進化がサンプリングによってのみ可能である場合、モデルフリー強化学習(RL)は最適な決定順序を計算するアルゴリズムである。
一方、RLは学習目的をスカラー報酬信号として符号化する必要がある。
このような手作業による翻訳は退屈で誤りやすいため、離散時間マルコフ決定プロセス(mdps)のスカラー報酬に高水準の目的(論理やオートマトン形式で表現される)を翻訳する手法がいくつか提案されている。
残念ながら、CTMDPには自動翻訳は存在しない。
我々は,オメガ規則言語として表現された学習目標に対するCTMDP環境について検討する。
オメガ正規言語は正規言語を無限水平仕様に一般化し、人気のある線形時間論理LTLで与えられる特性を表現できる。
CTMDPの高密度時間特性に対応するため、オメガ規則目的の2つの異なる意味を考察する。
1) 学習者の目標が良好な状態においてポジティブな時間を過ごす確率を最大化することにある満足度意味論
2) 学習者の目標である期待セマンティクスは、オートマトンの ``good states" に費やされる長期の期待平均時間を最適化することである。
本稿では,CTMDPの既製のRLアルゴリズムで容易に利用できるスカラー報酬信号への正しい翻訳を可能にする手法を提案する。
提案アルゴリズムの有効性を,オメガ正規目的のCTMDPベンチマークで評価することで実証する。
関連論文リスト
- Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [55.41644538483948]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,仕様のオートマトンと環境のMDPで構成されたモデルである製品MDPを,部分的に観測可能なMDPとして扱い,隠蔽マルコフモデルにオフザシェルフアルゴリズムを用いて学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Universal Learning Waveform Selection Strategies for Adaptive Target
Tracking [42.4297040396286]
本研究は,任意のレーダシーンにおいてベルマン最適性を実現するシーケンシャル波形選択法を開発した。
Context-Tree Weighting (CTW) 法のマルチアルファ版に基づくアルゴリズムは、波形・アジャイル追跡問題の幅広いクラスを最適に解くために使用できる。
論文 参考訳(メタデータ) (2022-02-10T19:21:03Z) - Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2021-09-27T22:44:55Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。