論文の概要: Damped Anderson Mixing for Deep Reinforcement Learning: Acceleration,
Convergence, and Stabilization
- arxiv url: http://arxiv.org/abs/2110.08896v1
- Date: Sun, 17 Oct 2021 19:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 20:58:37.829611
- Title: Damped Anderson Mixing for Deep Reinforcement Learning: Acceleration,
Convergence, and Stabilization
- Title(参考訳): 深層強化学習のためのダンプアンダーソン混合:加速,収束,安定化
- Authors: Ke Sun, Yafei Wang, Yi Liu, Yingnan Zhao, Bo Pan, Shangling Jui, Bei
Jiang, Linglong Kong
- Abstract要約: 深いRLアルゴリズムの収束性を改善するために、アンダーソン混合上に構築された加速度スキームのクラスに関する洞察を提供する。
本研究の主な結果はアンダーソン混合法と準ニュートン法との関係を確立し,アンダーソン混合法が余剰収縮係数による政策スキームの収束半径を増大させることを示す。
アンダーソン混合における安定な正規化項と、より高速な収束とより安定な挙動を両立できる微分可能で拡張不可能なメルローマックス作用素を導入することで安定化戦略を提案する。
- 参考スコア(独自算出の注目度): 7.418163369920758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anderson mixing has been heuristically applied to reinforcement learning (RL)
algorithms for accelerating convergence and improving the sampling efficiency
of deep RL. Despite its heuristic improvement of convergence, a rigorous
mathematical justification for the benefits of Anderson mixing in RL has not
yet been put forward. In this paper, we provide deeper insights into a class of
acceleration schemes built on Anderson mixing that improve the convergence of
deep RL algorithms. Our main results establish a connection between Anderson
mixing and quasi-Newton methods and prove that Anderson mixing increases the
convergence radius of policy iteration schemes by an extra contraction factor.
The key focus of the analysis roots in the fixed-point iteration nature of RL.
We further propose a stabilization strategy by introducing a stable
regularization term in Anderson mixing and a differentiable, non-expansive
MellowMax operator that can allow both faster convergence and more stable
behavior. Extensive experiments demonstrate that our proposed method enhances
the convergence, stability, and performance of RL algorithms.
- Abstract(参考訳): アンダーソン混合は、収束を加速し、深部RLのサンプリング効率を向上させるための強化学習(RL)アルゴリズムにヒューリスティックに応用されている。
収束のヒューリスティックな改善にもかかわらず、アンダーソン混合の RL における利益に対する厳密な数学的正当化はまだ行われていない。
本稿では,アンダーソン混合を基礎として,深部RLアルゴリズムの収束性を改善する一連の加速スキームについて,より深い知見を提供する。
本研究では,アンダーソン混合法と準ニュートン法を結びつけ,アンダーソン混合法が政策反復計画の収束半径を余分な収縮係数で増加させることを示す。
解析の鍵となる焦点は、RLの固定点反復性にある。
さらに,アンダーソン混合における安定正規化項と,より高速収束とより安定な挙動を両立できる可微分非拡張メルローマックス作用素を導入することで安定化戦略を提案する。
大規模な実験により,提案手法はRLアルゴリズムの収束,安定性,性能を向上させることが示された。
関連論文リスト
- Accelerating AI Performance using Anderson Extrapolation on GPUs [2.114333871769023]
Anderson外挿を利用したAI性能向上のための新しい手法を提案する。
混合ペナルティが生じるクロスオーバー点を特定することにより、反復を収束に還元することに焦点を当てる。
高速コンピューティングの領域におけるスケーラビリティと効率性の拡張を動機とした,トレーニングと推論の両面での大幅な改善を示す。
論文 参考訳(メタデータ) (2024-10-25T10:45:17Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。
より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。
我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文 参考訳(メタデータ) (2022-09-13T04:58:35Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Stochastic Anderson Mixing for Nonconvex Stochastic Optimization [12.65903351047816]
Anderson Mixing (AM) は固定点反復の加速法である。
非適応最適化問題の解法として,Mixing (SAM) 方式を提案する。
論文 参考訳(メタデータ) (2021-10-04T16:26:15Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - SIBRE: Self Improvement Based REwards for Adaptive Feedback in
Reinforcement Learning [5.868852957948178]
強化学習(RL)における収束率向上のための汎用的な報酬形成手法を提案する。
このアプローチは既存のRLアルゴリズムと併用して使用するために設計されており、エージェントの過去のパフォーマンスよりも報奨的な改善で構成されている。
我々は、SIBREが元のRLアルゴリズムと同じ条件下で期待に収束することを証明した。
論文 参考訳(メタデータ) (2020-04-21T09:22:16Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。