論文の概要: The Importance of Non-Markovianity in Maximum State Entropy Exploration
- arxiv url: http://arxiv.org/abs/2202.03060v1
- Date: Mon, 7 Feb 2022 10:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 16:58:51.734431
- Title: The Importance of Non-Markovianity in Maximum State Entropy Exploration
- Title(参考訳): 最大状態エントロピー探査における非マルコフ性の重要性
- Authors: Mirco Mutti, Riccardo De Santi, Marcello Restelli
- Abstract要約: ハザンらはマルコフの政策のクラスは最大状態エントロピーの目的に十分であると述べた。
非マルコニティは、有限サンプル状態における最大状態エントロピー探索において最重要であると我々は主張する。
- 参考スコア(独自算出の注目度): 39.04317877999891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the maximum state entropy exploration framework, an agent interacts with a
reward-free environment to learn a policy that maximizes the entropy of the
expected state visitations it is inducing. Hazan et al. (2019) noted that the
class of Markovian stochastic policies is sufficient for the maximum state
entropy objective, and exploiting non-Markovianity is generally considered
pointless in this setting. In this paper, we argue that non-Markovianity is
instead paramount for maximum state entropy exploration in a finite-sample
regime. Especially, we recast the objective to target the expected entropy of
the induced state visitations in a single trial. Then, we show that the class
of non-Markovian deterministic policies is sufficient for the introduced
objective, while Markovian policies suffer non-zero regret in general. However,
we prove that the problem of finding an optimal non-Markovian policy is at
least NP-complete. Despite this negative result, we discuss avenues to address
the problem in a tractable way and how non-Markovian exploration could benefit
the sample efficiency of online reinforcement learning in future works.
- Abstract(参考訳): 最大状態エントロピー探索フレームワークでは、エージェントは報酬のない環境と相互作用し、それが引き起こしている期待状態訪問のエントロピーを最大化するポリシーを学ぶ。
hazan et al. (2019) は、マルコフの確率政策のクラスは最大状態エントロピーの目的のために十分であり、非マルコフ性を利用するのはこの設定において無意味であると見なされる。
本稿では,非マルコフ性は有限サンプルレジームにおける最大状態エントロピー探索に準じていると主張する。
特に,1回の試行で誘導された国家訪問の期待エントロピーを目標とする目標を再キャストした。
そこで, 非マルコフ的決定主義政策のクラスは導入目的に十分であることを示す一方で, マルコフ的政策は一般にゼロでない後悔に苦しむ。
しかし、最適な非マルコフポリシーを見つける問題は少なくともnp完全であることが証明される。
この否定的な結果にもかかわらず、この問題を抽出可能な方法で解決するための道程と、今後の作業におけるオンライン強化学習のサンプル効率に非マルコフ探索がどう役立つかについて議論する。
関連論文リスト
- Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Covert Planning against Imperfect Observers [29.610121527096286]
カバー・プランニング(英: Covert Planning)とは、エージェントが受動的オブザーバに漏れた最小限の情報でタスクを遂行し、検出を避けることを目的とした制約された計画問題である。
本稿では,観測者の不完全な観測と力学の結合を利用して,検出されることなく最適性能を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-10-25T17:23:57Z) - Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration [97.19464604735802]
探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T01:09:28Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Do You Need the Entropy Reward (in Practice)? [29.811723497181486]
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
論文 参考訳(メタデータ) (2022-01-28T21:43:21Z) - On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文 参考訳(メタデータ) (2021-03-04T04:11:09Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State
Entropy Estimate [40.97686031763918]
報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学習できるように、エージェントが追求すべき本質的な目的は何ですか?
有限水平軌道によって誘導される状態分布のエントロピーは、合理的な対象である。
我々は,非パラメトリックな$k$-nearest隣人の状態分布エントロピー推定を最大化するポリシを学習するために,新しい,実用的なポリシ探索アルゴリズムである最大エントロピー・ポリシー最適化(MEPOL)を提案する。
論文 参考訳(メタデータ) (2020-07-09T08:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。