論文の概要: Greedification Operators for Policy Optimization: Investigating Forward
and Reverse KL Divergences
- arxiv url: http://arxiv.org/abs/2107.08285v1
- Date: Sat, 17 Jul 2021 17:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:51:46.512270
- Title: Greedification Operators for Policy Optimization: Investigating Forward
and Reverse KL Divergences
- Title(参考訳): 政策最適化のための強欲演算子:前方および逆klダイバージェンスの検討
- Authors: Alan Chan, Hugo Silva, Sungsu Lim, Tadashi Kozuno, A. Rupam Mahmood,
Martha White
- Abstract要約: パラメータ化ポリシとボルツマン分布のKL分散を作用値上で低減する際の近似グリード化について検討する。
逆KLは、より強力な政策改善保証を有するが、前方KLの削減は、より悪い政策をもたらす可能性があることを示す。
離散アクション設定やベンチマーク問題に有意な差は見られなかった。
- 参考スコア(独自算出の注目度): 33.471102483095315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximate Policy Iteration (API) algorithms alternate between (approximate)
policy evaluation and (approximate) greedification. Many different approaches
have been explored for approximate policy evaluation, but less is understood
about approximate greedification and what choices guarantee policy improvement.
In this work, we investigate approximate greedification when reducing the KL
divergence between the parameterized policy and the Boltzmann distribution over
action values. In particular, we investigate the difference between the forward
and reverse KL divergences, with varying degrees of entropy regularization. We
show that the reverse KL has stronger policy improvement guarantees, but that
reducing the forward KL can result in a worse policy. We also demonstrate,
however, that a large enough reduction of the forward KL can induce improvement
under additional assumptions. Empirically, we show on simple continuous-action
environments that the forward KL can induce more exploration, but at the cost
of a more suboptimal policy. No significant differences were observed in the
discrete-action setting or on a suite of benchmark problems. Throughout, we
highlight that many policy gradient methods can be seen as an instance of API,
with either the forward or reverse KL for the policy update, and discuss next
steps for understanding and improving our policy optimization algorithms.
- Abstract(参考訳): Approximate Policy Iteration (API)アルゴリズムは、(近似)ポリシー評価と(近似)グリード化を交互に行う。
概略政策評価のために多くの異なるアプローチが検討されているが、近似欲欲化や政策改善の選択肢についてはあまり理解されていない。
本研究では,パラメータ化ポリシーとボルツマン分布とのkl発散を作用値上で減少させる場合の近似欲化について検討する。
特に、エントロピー正則化の度合いの異なる前方と後方のKL発散の差について検討する。
逆KLは、より強力な政策改善保証を有するが、前方KLの削減は、より悪い政策をもたらす可能性があることを示す。
しかしながら, 前方KLの大幅な削減は, 追加の仮定で改善を誘導できることを示す。
実証的に、我々は、前方のKLがより多くの探索を誘発できる単純な連続的な環境を示すが、より最適な政策を犠牲にしている。
離散行動設定やベンチマーク問題スイートでは,有意な差は認められなかった。
全体として、ポリシーの最適化アルゴリズムの理解と改善の次のステップについて議論し、ポリシー更新の前後のKLを使って、多くのポリシー勾配メソッドをAPIのインスタンスとみなすことができる点を強調した。
関連論文リスト
- WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Generalized Munchausen Reinforcement Learning using Tsallis KL Divergence [22.400759435696102]
我々は、定義に$q$-logarithmを使用する一般化KL発散(Tsallis KL発散)について検討する。
我々は、Tsallis KLで学んだポリシーのタイプを特徴付け、$q > 1$が有益である場合に動機付ける。
この一般化されたMVI($q$)は、35のアタリゲームにおいて標準MVI($q = 1$)よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-01-27T00:31:51Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。