論文の概要: Generalized Munchausen Reinforcement Learning using Tsallis KL Divergence
- arxiv url: http://arxiv.org/abs/2301.11476v4
- Date: Mon, 18 Mar 2024 15:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:51:05.844946
- Title: Generalized Munchausen Reinforcement Learning using Tsallis KL Divergence
- Title(参考訳): Tsallis KL分枝を用いた一般化Munchausen強化学習
- Authors: Lingwei Zhu, Zheng Chen, Matthew Schlegel, Martha White,
- Abstract要約: 我々は、定義に$q$-logarithmを使用する一般化KL発散(Tsallis KL発散)について検討する。
我々は、Tsallis KLで学んだポリシーのタイプを特徴付け、$q > 1$が有益である場合に動機付ける。
この一般化されたMVI($q$)は、35のアタリゲームにおいて標準MVI($q = 1$)よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 22.400759435696102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many policy optimization approaches in reinforcement learning incorporate a Kullback-Leilbler (KL) divergence to the previous policy, to prevent the policy from changing too quickly. This idea was initially proposed in a seminal paper on Conservative Policy Iteration, with approximations given by algorithms like TRPO and Munchausen Value Iteration (MVI). We continue this line of work by investigating a generalized KL divergence -- called the Tsallis KL divergence -- which use the $q$-logarithm in the definition. The approach is a strict generalization, as $q = 1$ corresponds to the standard KL divergence; $q > 1$ provides a range of new options. We characterize the types of policies learned under the Tsallis KL, and motivate when $q >1$ could be beneficial. To obtain a practical algorithm that incorporates Tsallis KL regularization, we extend MVI, which is one of the simplest approaches to incorporate KL regularization. We show that this generalized MVI($q$) obtains significant improvements over the standard MVI($q = 1$) across 35 Atari games.
- Abstract(参考訳): 強化学習における多くの政策最適化アプローチは、政策の急激な変更を防ぐために、クルバック・ライルブラー(KL)を以前の政策に分岐させる。
このアイデアは、TRPOやMunchausen Value Iteration (MVI)といったアルゴリズムによって与えられる近似を用いて、保守政策イテレーションに関するセミナー論文で最初に提案された。
我々は、定義に$q$-logarithmを使用する一般化KL発散(英語版)(Tsallis KL divergence)と呼ばれる、一般化KL発散(英語版)の研究を継続する。
このアプローチは厳密な一般化であり、$q = 1$ は標準 KL の発散に対応する;$q > 1$ は様々な新しい選択肢を提供する。
我々は、Tsallis KLで学んだポリシーのタイプを特徴付け、$q > 1$が有益である場合に動機付ける。
Tsallis KL正則化を組み込んだ実用的なアルゴリズムを得るために、我々はKL正則化を組み込む最も単純なアプローチの一つであるMVIを拡張する。
この一般化されたMVI($q$)は、35のアタリゲームにおいて標準MVI($q = 1$)よりも大幅に改善されていることを示す。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Greedification Operators for Policy Optimization: Investigating Forward
and Reverse KL Divergences [33.471102483095315]
パラメータ化ポリシとボルツマン分布のKL分散を作用値上で低減する際の近似グリード化について検討する。
逆KLは、より強力な政策改善保証を有するが、前方KLの削減は、より悪い政策をもたらす可能性があることを示す。
離散アクション設定やベンチマーク問題に有意な差は見られなかった。
論文 参考訳(メタデータ) (2021-07-17T17:09:18Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - Markovian Score Climbing: Variational Inference with KL(p||q) [16.661889249333676]
我々は「排他的クルバック・リーブラ」(KL)KL(p q)を確実に最小化する簡単なアルゴリズムを開発する。
この方法は包含KLの局所最適化に収束する。
Reweighted Wake-Sleep(英語版)やNeural Adaptive Monte Carlo(英語版)のような既存の手法に固有の体系的な誤りに悩まされない。
論文 参考訳(メタデータ) (2020-03-23T16:38:10Z) - Differentiable Bandit Exploration [38.81737411000074]
我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
論文 参考訳(メタデータ) (2020-02-17T05:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。