論文の概要: Variance Reduction for Policy-Gradient Methods via Empirical Variance
Minimization
- arxiv url: http://arxiv.org/abs/2206.06827v2
- Date: Wed, 15 Jun 2022 07:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:55:22.054430
- Title: Variance Reduction for Policy-Gradient Methods via Empirical Variance
Minimization
- Title(参考訳): 経験的変動最小化による政策勾配法のばらつき低減
- Authors: Maxim Kaledin, Alexander Golubev, Denis Belomestny
- Abstract要約: 強化学習における政策段階的な手法は、勾配推定の高分散に悩まされる。
本稿では,実証変動(EV)と呼ばれる装置の性能について,初めて検討する。
実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。
- 参考スコア(独自算出の注目度): 69.32510868632988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-gradient methods in Reinforcement Learning(RL) are very universal and
widely applied in practice but their performance suffers from the high variance
of the gradient estimate. Several procedures were proposed to reduce it
including actor-critic(AC) and advantage actor-critic(A2C) methods. Recently
the approaches have got new perspective due to the introduction of Deep RL:
both new control variates(CV) and new sub-sampling procedures became available
in the setting of complex models like neural networks. The vital part of
CV-based methods is the goal functional for the training of the CV, the most
popular one is the least-squares criterion of A2C. Despite its practical
success, the criterion is not the only one possible. In this paper we for the
first time investigate the performance of the one called Empirical
Variance(EV). We observe in the experiments that not only EV-criterion performs
not worse than A2C but sometimes can be considerably better. Apart from that,
we also prove some theoretical guarantees of the actual variance reduction
under very general assumptions and show that A2C least-squares goal functional
is an upper bound for EV goal. Our experiments indicate that in terms of
variance reduction EV-based methods are much better than A2C and allow stronger
variance reduction.
- Abstract(参考訳): 強化学習(rl)における政策段階の手法は非常に普遍的であり、実際に広く適用されているが、その性能は勾配推定のばらつきに苦しむ。
actor-critic(ac) と advantage actor-critic(a2c) メソッドを含むいくつかの方法が提案されている。
近年、Deep RLの導入により、アプローチには新たな視点がある。ニューラルネットワークのような複雑なモデルの設定で、新しい制御変数(CV)と新しいサブサンプリング手順が利用可能になった。
CVベースの手法の最も重要な部分はCVの訓練のための目標関数であり、最も一般的なものはA2Cの最小二乗基準である。
実際の成功にもかかわらず、この基準は唯一可能ではない。
本稿では,実証変動(EV)と呼ばれる装置の性能を初めて調査する。
実験では、EV基準がA2Cよりも悪くなるだけでなく、時にはかなり良くなる可能性があることを観察した。
それとは別に、非常に一般的な仮定の下で実際の分散低減に関する理論的な保証を証明し、a2c最小二乗汎関数がev目標の上限であることを示す。
実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。
関連論文リスト
- Solving Hidden Monotone Variational Inequalities with Surrogate Losses [23.565183680315073]
本稿では,変分不等式(VI)問題の解法として,ディープラーニングに適合する原理的な代理型アプローチを提案する。
提案手法は,予測ベルマン誤差の最小化と最小化に有効であることを示す。
深層強化学習では,より計算的かつ効率的なTD(0)の新たな変種を提案する。
論文 参考訳(メタデータ) (2024-11-07T22:42:08Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Robust Long-Tailed Learning via Label-Aware Bounded CVaR [36.26100472960534]
そこで本研究では,長期学習の性能向上のための2つの新しい手法を提案する。
具体的には,従来のCVaRの悲観的な結果を克服するために,ラベル認識境界CVaRの損失を導入する。
また,最適化プロセスの安定化を図るため,ロジット調整付きLAB-CVaRを提案する。
論文 参考訳(メタデータ) (2023-08-29T16:07:18Z) - Mixture Proportion Estimation and PU Learning: A Modern Approach [47.34499672878859]
正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。
両方の問題の古典的な方法は、高次元の設定で分解される。
BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-11-01T14:42:23Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。