論文の概要: Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes
- arxiv url: http://arxiv.org/abs/2205.01053v1
- Date: Fri, 29 Apr 2022 16:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 08:55:21.444618
- Title: Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes
- Title(参考訳): 非マルコフ決定過程におけるPAC強化学習のためのマルコフ抽象化
- Authors: Alessandro Ronca, Gabriel Paludo Licks, Giuseppe De Giacomo
- Abstract要約: マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
- 参考スコア(独自算出の注目度): 90.53326983143644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our work aims at developing reinforcement learning algorithms that do not
rely on the Markov assumption. We consider the class of Non-Markov Decision
Processes where histories can be abstracted into a finite set of states while
preserving the dynamics. We call it a Markov abstraction since it induces a
Markov Decision Process over a set of states that encode the non-Markov
dynamics. This phenomenon underlies the recently introduced Regular Decision
Processes (as well as POMDPs where only a finite number of belief states is
reachable). In all such kinds of decision process, an agent that uses a Markov
abstraction can rely on the Markov property to achieve optimal behaviour. We
show that Markov abstractions can be learned during reinforcement learning. For
these two tasks, any algorithms satisfying some basic requirements can be
employed. We show that our approach has PAC guarantees when the employed
algorithms have PAC guarantees, and we also provide an experimental evaluation.
- Abstract(参考訳): 本研究の目的はマルコフの仮定に依存しない強化学習アルゴリズムの開発である。
非マルコフ決定過程のクラスを考えると、ヒストリーは力学を保ちながら有限な状態に抽象化できる。
これをマルコフ抽象(markov abstract)と呼び、非マルコフダイナミクスをコードする一連の状態に対してマルコフ決定過程を誘導する。
この現象は、最近導入された規則決定過程(および有限個の信念状態のみが到達可能なPOMDP)の根底にある。
あらゆる種類の意思決定プロセスにおいて、マルコフ抽象を用いたエージェントは最適な振る舞いを達成するためにマルコフ特性に依存することができる。
強化学習中にマルコフ抽象化が学習できることを示す。
この2つのタスクでは、いくつかの基本的な要件を満たすアルゴリズムが利用できる。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証するとともに,実験的な評価を行う。
関連論文リスト
- Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - PAC Reinforcement Learning Algorithm for General-Sum Markov Games [5.279475826661642]
本稿では、一般的なマルコフゲームのための新しいPAC MARLアルゴリズムを構築するために、遅延Qラーニングというアイデアを用いて、よく知られたナッシュQラーニングアルゴリズムの拡張を提供する。
証明可能なPAC MARLアルゴリズムの設計の指針に加え、任意のMARLアルゴリズムがPACであるかどうかを確認することができる。
論文 参考訳(メタデータ) (2020-09-05T21:54:27Z) - Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文 参考訳(メタデータ) (2020-06-26T11:58:04Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。