論文の概要: Optimization Issues in KL-Constrained Approximate Policy Iteration
- arxiv url: http://arxiv.org/abs/2102.06234v1
- Date: Thu, 11 Feb 2021 19:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:21:38.798930
- Title: Optimization Issues in KL-Constrained Approximate Policy Iteration
- Title(参考訳): KL制約近似政策イテレーションにおける最適化問題
- Authors: Nevena Lazi\'c, Botao Hao, Yasin Abbasi-Yadkori, Dale Schuurmans,
Csaba Szepesv\'ari
- Abstract要約: 多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
- 参考スコア(独自算出の注目度): 48.24321346619156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning algorithms can be seen as versions of approximate
policy iteration (API). While standard API often performs poorly, it has been
shown that learning can be stabilized by regularizing each policy update by the
KL-divergence to the previous policy. Popular practical algorithms such as
TRPO, MPO, and VMPO replace regularization by a constraint on KL-divergence of
consecutive policies, arguing that this is easier to implement and tune. In
this work, we study this implementation choice in more detail. We compare the
use of KL divergence as a constraint vs. as a regularizer, and point out
several optimization issues with the widely-used constrained approach. We show
that the constrained algorithm is not guaranteed to converge even on simple
problem instances where the constrained problem can be solved exactly, and in
fact incurs linear expected regret. With approximate implementation using
softmax policies, we show that regularization can improve the optimization
landscape of the original objective. We demonstrate these issues empirically on
several bandit and RL environments.
- Abstract(参考訳): 多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOといった一般的な実践的アルゴリズムは、連続的なポリシーのKL分割の制約によって正規化を置き換える。
本研究では,この実装選択をより詳細に検討する。
制約としてklダイバージェンスの使用と正規化としての使用を比較し、広く使われている制約付きアプローチの最適化問題をいくつか指摘する。
制約付きアルゴリズムは、制約付き問題を正確に解くことができる単純な問題例でも収束することが保証されておらず、実際には線形期待の後悔をもたらす。
Softmaxポリシーを使用した近似実装により、正規化は元の目的の最適化のランドスケープを改善できることを示しています。
これらの問題をいくつかのバンディットおよびRL環境で実証する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Simple Policy Optimization [7.228021064624876]
我々は,旧ポリシーと新ポリシーのKL分岐のための新しいクリッピング手法を取り入れたSPOアルゴリズムを提案する。
SPOは、より優れたサンプリング効率、極めて低いKL分散、より高いポリシーエントロピーを実現すると同時に、ネットワークの深さや複雑さの増大にも堅牢である。
論文 参考訳(メタデータ) (2024-01-29T10:17:54Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum
Markov Games [10.805520579293747]
ゲームに対するナイーブなポリシー反復の単純な変種は指数関数的に高速に収束することを示す。
また、線形マルコフゲームの関数近似設定において、ルックアヘッドポリシーを効率的に実装できることを示す。
論文 参考訳(メタデータ) (2023-03-17T01:20:22Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - A policy gradient approach for Finite Horizon Constrained Markov Decision Processes [6.682382456607199]
固定時間(有限時間)後に地平線が終了する有限水平設定における制約付きRLのアルゴリズムを提案する。
我々の知る限り、制約付き有限地平線設定のための最初のポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:52:02Z) - Policy Optimization for Stochastic Shortest Path [43.2288319750466]
最短経路(SSP)問題に対する政策最適化について検討する。
本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
論文 参考訳(メタデータ) (2022-02-07T16:25:14Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。