論文の概要: Block Policy Mirror Descent
- arxiv url: http://arxiv.org/abs/2201.05756v1
- Date: Sat, 15 Jan 2022 04:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:18:36.804315
- Title: Block Policy Mirror Descent
- Title(参考訳): ブロックポリシーミラー降下
- Authors: Guanghui Lan, Yan Li, Tuo Zhao
- Abstract要約: ブロックポリシミラー降下(BPMD)という新しいポリシークラス(PG)手法を提案する。
BPMDは、強い凸正則化を伴う正規化強化学習(RL)のクラスを解決するために用いられる。
強化学習におけるポリシー最適化のために,ブロック座標降下法が開発され,解析されたのはこれが初めてである。
- 参考スコア(独自算出の注目度): 40.2022466644885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a new class of policy gradient (PG) methods, namely
the block policy mirror descent (BPMD) methods for solving a class of
regularized reinforcement learning (RL) problems with (strongly) convex
regularizers. Compared to the traditional PG methods with batch update rule,
which visit and update the policy for every state, BPMD methods have cheap
per-iteration computation via a partial update rule that performs the policy
update on a sampled state. Despite the nonconvex nature of the problem and a
partial update rule, BPMD methods achieve fast linear convergence to the global
optimality. We further extend BPMD methods to the stochastic setting, by
utilizing stochastic first-order information constructed from samples. We
establish $\cO(1/\epsilon)$ (resp. $\cO(1/\epsilon^2)$) sample complexity for
the strongly convex (resp. non-strongly convex) regularizers, with different
procedures for constructing the stochastic first-order information, where
$\epsilon$ denotes the target accuracy. To the best of our knowledge, this is
the first time that block coordinate descent methods have been developed and
analyzed for policy optimization in reinforcement learning.
- Abstract(参考訳): 本稿では,(強い)凸正則化器を用いた規則化強化学習(RL)のクラスを解くために,ブロックポリシーミラー降下法(BPMD)という新しいポリシー勾配法を提案する。
バッチ更新ルールを持つ従来のPGメソッドと比較して、BPMDメソッドは、サンプリングされた状態のポリシー更新を実行する部分更新ルールを介して、各状態のポリシーを訪問して更新する。
問題の非凸の性質と部分的な更新規則にもかかわらず、BPMD法はグローバルな最適性への高速な線形収束を実現する。
さらに、サンプルから構築した確率的一階情報を利用して、bpmd法を確率的設定にまで拡張する。
我々は$\cO(1/\epsilon)$ (resp)を確立する。
$\cO(1/\epsilon^2)$) 強い凸 (resp. non-strongly convex) 正規化子に対するサンプルの複雑さは、確率的な一階情報を構成するための異なる手順を持つ。
我々の知る限り、強化学習における政策最適化のために、ブロック座標降下法が開発され、分析されたのはこれが初めてである。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Stochastic Dimension-reduced Second-order Methods for Policy
Optimization [11.19708535159457]
各イテレーションにおいて勾配とヘシアンベクトル積のみを必要とするポリシー最適化のための新しい2次アルゴリズムを提案する。
具体的には、投影された2次元信頼領域のサブプロブレムを繰り返す次元還元二階法(DR-SOPO)を提案する。
DR-SOPOはおよそ1次定常状態に到達するために$mathcalO(epsilon-3.5)$の複雑さが得られることを示す。
さらに,拡張アルゴリズム (DVR-SOPO) を提案する。
論文 参考訳(メタデータ) (2023-01-28T12:09:58Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。