論文の概要: Variance Reduction for Policy-Gradient Methods via Empirical Variance
Minimization
- arxiv url: http://arxiv.org/abs/2206.06827v1
- Date: Tue, 14 Jun 2022 13:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:57:13.623653
- Title: Variance Reduction for Policy-Gradient Methods via Empirical Variance
Minimization
- Title(参考訳): 経験的変動最小化による政策勾配法のばらつき低減
- Authors: Kaledin Maxim, Golubev Alexander, Belomestny Denis
- Abstract要約: 強化学習における政策段階的な手法は、勾配推定の高分散に悩まされる。
本稿では,実証変動(EV)と呼ばれる装置の性能について,初めて検討する。
実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-gradient methods in Reinforcement Learning(RL) are very universal and
widely applied in practice but their performance suffers from the high variance
of the gradient estimate. Several procedures were proposed to reduce it
including actor-critic(AC) and advantage actor-critic(A2C) methods. Recently
the approaches have got new perspective due to the introduction of Deep RL:
both new control variates(CV) and new sub-sampling procedures became available
in the setting of complex models like neural networks. The vital part of
CV-based methods is the goal functional for the training of the CV, the most
popular one is the least-squares criterion of A2C. Despite its practical
success, the criterion is not the only one possible. In this paper we for the
first time investigate the performance of the one called Empirical
Variance(EV). We observe in the experiments that not only EV-criterion performs
not worse than A2C but sometimes can be considerably better. Apart from that,
we also prove some theoretical guarantees of the actual variance reduction
under very general assumptions and show that A2C least-squares goal functional
is an upper bound for EV goal. Our experiments indicate that in terms of
variance reduction EV-based methods are much better than A2C and allow stronger
variance reduction.
- Abstract(参考訳): 強化学習(rl)における政策段階の手法は非常に普遍的であり、実際に広く適用されているが、その性能は勾配推定のばらつきに苦しむ。
actor-critic(ac) と advantage actor-critic(a2c) メソッドを含むいくつかの方法が提案されている。
近年、Deep RLの導入により、アプローチには新たな視点がある。ニューラルネットワークのような複雑なモデルの設定で、新しい制御変数(CV)と新しいサブサンプリング手順が利用可能になった。
CVベースの手法の最も重要な部分はCVの訓練のための目標関数であり、最も一般的なものはA2Cの最小二乗基準である。
実際の成功にもかかわらず、この基準は唯一可能ではない。
本稿では,実証変動(EV)と呼ばれる装置の性能を初めて調査する。
実験では、EV基準がA2Cよりも悪くなるだけでなく、時にはかなり良くなる可能性があることを観察した。
それとは別に、非常に一般的な仮定の下で実際の分散低減に関する理論的な保証を証明し、a2c最小二乗汎関数がev目標の上限であることを示す。
実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。
関連論文リスト
- Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Rethinking Test-time Likelihood: The Likelihood Path Principle and Its
Application to OOD Detection [5.747789057967598]
我々は、可能性経路(LPath)原理を導入し、可能性原理を一般化する。
これにより、情報的要約統計の探索を、VAEsの条件付き確率の最小限の統計量にまで絞り込む。
対応するLPathアルゴリズムは、推定値の低い単純かつ小さなVAEでもSOTA性能を示す。
論文 参考訳(メタデータ) (2024-01-10T05:07:14Z) - Robust Long-Tailed Learning via Label-Aware Bounded CVaR [36.26100472960534]
そこで本研究では,長期学習の性能向上のための2つの新しい手法を提案する。
具体的には,従来のCVaRの悲観的な結果を克服するために,ラベル認識境界CVaRの損失を導入する。
また,最適化プロセスの安定化を図るため,ロジット調整付きLAB-CVaRを提案する。
論文 参考訳(メタデータ) (2023-08-29T16:07:18Z) - Orthogonal SVD Covariance Conditioning and Latent Disentanglement [65.67315418971688]
SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になる。
我々は最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-12-11T20:31:31Z) - Mixture Proportion Estimation and PU Learning: A Modern Approach [47.34499672878859]
正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。
両方の問題の古典的な方法は、高次元の設定で分解される。
BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-11-01T14:42:23Z) - VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。
従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。
現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文 参考訳(メタデータ) (2021-06-18T17:04:57Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。