論文の概要: ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy
Evolution
- arxiv url: http://arxiv.org/abs/2008.02387v3
- Date: Tue, 8 Dec 2020 05:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 17:39:07.035034
- Title: ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy
Evolution
- Title(参考訳): ClipUp: 分散ベースのポリシー進化のためのシンプルで強力な最適化
- Authors: Nihat Engin Toklu, Pawe{\l} Liskowski, Rupesh Kumar Srivastava
- Abstract要約: ClipUpは、その動作原理がシンプルで理解しやすいため、分散ベースのポリシー進化にとってより良い選択である、と私たちは主張する。
実験によると、ClipUpは単純さにもかかわらずAdamと競合しており、継続的な制御ベンチマークに挑戦する上で有効である。
- 参考スコア(独自算出の注目度): 2.2731500742482305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution-based search algorithms are an effective approach for
evolutionary reinforcement learning of neural network controllers. In these
algorithms, gradients of the total reward with respect to the policy parameters
are estimated using a population of solutions drawn from a search distribution,
and then used for policy optimization with stochastic gradient ascent. A common
choice in the community is to use the Adam optimization algorithm for obtaining
an adaptive behavior during gradient ascent, due to its success in a variety of
supervised learning settings. As an alternative to Adam, we propose to enhance
classical momentum-based gradient ascent with two simple techniques: gradient
normalization and update clipping. We argue that the resulting optimizer called
ClipUp (short for "clipped updates") is a better choice for distribution-based
policy evolution because its working principles are simple and easy to
understand and its hyperparameters can be tuned more intuitively in practice.
Moreover, it removes the need to re-tune hyperparameters if the reward scale
changes. Experiments show that ClipUp is competitive with Adam despite its
simplicity and is effective on challenging continuous control benchmarks,
including the Humanoid control task based on the Bullet physics simulator.
- Abstract(参考訳): 分布に基づく探索アルゴリズムは、ニューラルネットワークコントローラの進化的強化学習に有効な手法である。
これらのアルゴリズムでは、探索分布から引き出された解の集団を用いて、政策パラメータに対する総報酬の勾配を推定し、確率的勾配上昇による政策最適化に使用する。
コミュニティで一般的な選択は、様々な教師付き学習環境での成功により、勾配上昇中の適応行動を得るためにadam最適化アルゴリズムを使用することである。
adamの代替として,グラデーション正規化と更新クリップングという2つの単純な手法を用いて,古典的運動量に基づく勾配上昇の促進を提案する。
clipupと呼ばれるオプティマイザ("clipped updates"の略)は、動作原理がシンプルで理解しやすく、ハイパーパラメータが実際より直感的に調整できるので、配布ベースのポリシー進化に最適な選択肢であると主張する。
さらに、報酬スケールが変化した場合、ハイパーパラメータを再チューニングする必要がなくなる。
実験によると、ClipUpは単純さにもかかわらずAdamと競合しており、Bullet物理シミュレータに基づくヒューマノイド制御タスクを含む、挑戦的な継続的制御ベンチマークに有効である。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - GTAdam: Gradient Tracking with Adaptive Momentum for Distributed Online
Optimization [4.103281325880475]
本稿では、中央コーディネータを使わずに、局所的な計算と通信によって、オンライン最適化問題を分散的に解決することを目的とした、計算機エージェントのネットワークを扱う。
本稿では,適応運動量推定法(GTAdam)を用いた勾配追従法と,勾配の1次および2次運動量推定法を組み合わせた勾配追従法を提案する。
マルチエージェント学習によるこれらの数値実験では、GTAdamは最先端の分散最適化手法よりも優れている。
論文 参考訳(メタデータ) (2020-09-03T15:20:21Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。