論文の概要: Learning and Solving Regular Decision Processes
- arxiv url: http://arxiv.org/abs/2003.01008v1
- Date: Mon, 2 Mar 2020 16:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:16:20.284388
- Title: Learning and Solving Regular Decision Processes
- Title(参考訳): 正規決定過程の学習と解法
- Authors: Eden Abadi, Ronen I. Brafman
- Abstract要約: RDP(Regular Decision Processs)は、非マルコフ力学と報酬を用いてMDPを拡張するモデルである。
本研究では,履歴クラスタリングによる自動学習技術を活用して,MCTSを適応させることで,Mealyマシンを学習し,それを解決する。
- 参考スコア(独自算出の注目度): 15.533842336139067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Regular Decision Processes (RDPs) are a recently introduced model that
extends MDPs with non-Markovian dynamics and rewards. The non-Markovian
behavior is restricted to depend on regular properties of the history. These
can be specified using regular expressions or formulas in linear dynamic logic
over finite traces. Fully specified RDPs can be solved by compiling them into
an appropriate MDP. Learning RDPs from data is a challenging problem that has
yet to be addressed, on which we focus in this paper. Our approach rests on a
new representation for RDPs using Mealy Machines that emit a distribution and
an expected reward for each state-action pair. Building on this representation,
we combine automata learning techniques with history clustering to learn such a
Mealy machine and solve it by adapting MCTS to it. We empirically evaluate this
approach, demonstrating its feasibility.
- Abstract(参考訳): RDP(Regular Decision Processs)は、非マルコフ力学と報酬を用いてMDPを拡張するモデルである。
非マルコフ的挙動は、歴史の通常の性質に依存することに制限される。
これらは有限トレース上の線形動的論理の正規表現や公式を用いて指定することができる。
完全に指定された RDP は、それらを適切な MDP にコンパイルすることで解決できる。
データからRCPを学ぶことは、未解決の問題であり、本論文に焦点をあてる。
提案手法は,各状態-作用対に対する分布と期待報酬を出力するMealy Machinesを用いて,RDPの新たな表現に頼っている。
この表現に基づいて,自動学習技術と履歴クラスタリングを組み合わせることで,このようなMealyマシンを学習し,MCTSを適応させることで解決する。
このアプローチを実証的に評価し,実現可能性を示した。
関連論文リスト
- Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Solving the non-preemptive two queue polling model with generally
distributed service and switch-over durations and Poisson arrivals as a
Semi-Markov Decision Process [0.0]
スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。
離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。
本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。
論文 参考訳(メタデータ) (2021-12-13T11:40:55Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。