論文の概要: Policy Mirror Descent Inherently Explores Action Space
- arxiv url: http://arxiv.org/abs/2303.04386v2
- Date: Tue, 21 Mar 2023 02:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 23:08:28.879893
- Title: Policy Mirror Descent Inherently Explores Action Space
- Title(参考訳): 政策鏡「Descent」がアクションスペースを探索
- Authors: Yan Li, Guanghui Lan
- Abstract要約: 1/epsilon2)$tildemathcalO($tildemathcalO)を,探索戦略を使わずに,オンラインポリシグラデーションメソッドのサンプル複雑性を初めて確立しました。
新しいポリシー勾配法は、最適なポリシーを探す際に、潜在的にリスクの高い行動に繰り返しコミットするのを防ぐことができる。
- 参考スコア(独自算出の注目度): 10.772560347950053
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Explicit exploration in the action space was assumed to be indispensable for
online policy gradient methods to avoid a drastic degradation in sample
complexity, for solving general reinforcement learning problems over finite
state and action spaces. In this paper, we establish for the first time an
$\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity for online policy
gradient methods without incorporating any exploration strategies. The
essential development consists of two new on-policy evaluation operators and a
novel analysis of the stochastic policy mirror descent method (SPMD). SPMD with
the first evaluation operator, called value-based estimation, tailors to the
Kullback-Leibler divergence. Provided the Markov chains on the state space of
generated policies are uniformly mixing with non-diminishing minimal visitation
measure, an $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity is obtained
with a linear dependence on the size of the action space. SPMD with the second
evaluation operator, namely truncated on-policy Monte Carlo (TOMC), attains an
$\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}}/\epsilon^2)$ sample complexity,
where $\mathcal{H}_{\mathcal{D}}$ mildly depends on the effective horizon and
the size of the action space with properly chosen Bregman divergence (e.g.,
Tsallis divergence). SPMD with TOMC also exhibits stronger convergence
properties in that it controls the optimality gap with high probability rather
than in expectation. In contrast to explicit exploration, these new policy
gradient methods can prevent repeatedly committing to potentially high-risk
actions when searching for optimal policies.
- Abstract(参考訳): 行動空間の明示的な探索は、有限状態および行動空間上の一般的な強化学習問題を解くために、サンプルの複雑さの劇的な劣化を避けるために、オンラインポリシー勾配法には不可欠であると仮定された。
本稿では, 探索戦略を組み込まずに, オンライン政策勾配法に対する$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプルの複雑さを初めて確立する。
この本質的発展は、2つのオン・ポリシー評価演算子と確率的政策ミラー降下法(spmd)の新しい分析から成り立っている。
spmdは、値ベース推定と呼ばれる最初の評価演算子で、kullback-leiblerの発散に合わせている。
生成したポリシの状態空間上のマルコフ連鎖が非最小訪問測度と均一に混合されている場合、$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプル複雑性は、アクション空間のサイズに線形に依存する。
SPMDと2番目の評価演算子、すなわち、政治上のモンテカルロ(TOMC)は、$\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}}/\epsilon^2)のサンプル複雑性を得る。
また、TOMCを用いたSPMDは、期待よりも高い確率で最適性ギャップを制御するという強い収束特性を示す。
明示的な探索とは対照的に、これらの新しいポリシー勾配法は、最適なポリシーを探すときに潜在的にリスクの高いアクションに繰り返しコミットすることを防ぐことができる。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。
値関数と有限水平マルコフ決定過程の接続を確立する。
論文 参考訳(メタデータ) (2021-11-01T00:21:24Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。