論文の概要: Learning Sampling Policy for Faster Derivative Free Optimization
- arxiv url: http://arxiv.org/abs/2104.04405v1
- Date: Fri, 9 Apr 2021 14:50:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 16:43:25.056907
- Title: Learning Sampling Policy for Faster Derivative Free Optimization
- Title(参考訳): 高速デリバティブ自由最適化のための学習サンプリングポリシー
- Authors: Zhou Zhai, Bin Gu, and Heng Huang
- Abstract要約: ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
- 参考スコア(独自算出の注目度): 100.27518340593284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO, also known as derivative-free) methods, which estimate the
gradient only by two function evaluations, have attracted much attention
recently because of its broad applications in machine learning community. The
two function evaluations are normally generated with random perturbations from
standard Gaussian distribution. To speed up ZO methods, many methods, such as
variance reduced stochastic ZO gradients and learning an adaptive Gaussian
distribution, have recently been proposed to reduce the variances of ZO
gradients. However, it is still an open problem whether there is a space to
further improve the convergence of ZO methods. To explore this problem, in this
paper, we propose a new reinforcement learning based ZO algorithm (ZO-RL) with
learning the sampling policy for generating the perturbations in ZO
optimization instead of using random sampling. To find the optimal policy, an
actor-critic RL algorithm called deep deterministic policy gradient (DDPG) with
two neural network function approximators is adopted. The learned sampling
policy guides the perturbed points in the parameter space to estimate a more
accurate ZO gradient. To the best of our knowledge, our ZO-RL is the first
algorithm to learn the sampling policy using reinforcement learning for ZO
optimization which is parallel to the existing methods. Especially, our ZO-RL
can be combined with existing ZO algorithms that could further accelerate the
algorithms. Experimental results for different ZO optimization problems show
that our ZO-RL algorithm can effectively reduce the variances of ZO gradient by
learning a sampling policy, and converge faster than existing ZO algorithms in
different scenarios.
- Abstract(参考訳): 2つの関数評価によってのみ勾配を推定するゼロ階数法(ZO, derivative-free)は、機械学習コミュニティに広く応用されているため、近年注目を集めている。
2つの関数の評価は通常、標準ガウス分布からランダムな摂動で生成される。
ZO法を高速化するために、確率的ZO勾配の分散化や適応的なガウス分布の学習など多くの手法が最近提案され、ZO勾配の分散の低減が図られている。
しかし、ZO法の収束をさらに改善する空間が存在するかどうかはまだ未解決の問題である。
そこで本研究では,ZO最適化における摂動をランダムサンプリングの代わりに生成するためのサンプリングポリシを学習する,新しい強化学習ベースのZOアルゴリズムを提案する。
最適ポリシーを見つけるために、2つのニューラルネットワーク関数近似器を用いたディープ決定性ポリシー勾配 (DDPG) と呼ばれるアクタークリティカルなRLアルゴリズムを採用する。
学習されたサンプリングポリシーはパラメータ空間の摂動点をガイドし、より正確なZO勾配を推定する。
我々の知る限り、ZO-RLは既存の手法と平行なZO最適化のための強化学習を用いてサンプリングポリシーを学習する最初のアルゴリズムである。
特に、我々のZO-RLは、アルゴリズムをさらに高速化できる既存のZOアルゴリズムと組み合わせることができる。
異なるZO最適化問題に対する実験結果から,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示された。
関連論文リスト
- Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses [5.052293146674794]
標準降下(SGD)最適化法は、学習率が0に収束しない場合、アダムのような加速および適応SGD最適化法が収束しないことが知られている。
本研究では,経験的推定に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-06-20T14:07:39Z) - BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization [33.082961718280245]
既存のアルゴリズムは、ハイパーグラディエントを計算する際に近似誤差の影響を受け得る2つの結合学習率を含んでいる。
線形探索(SLS)とポリアクステップサイズ(SPS)という適応的なステップサイズ法を用いて,上層と下層の両方の学習率の計算を行う。
SGDとAdamの両バージョンで利用できる新しいアルゴリズムは、最小限のチューニングで大きな学習率を見つけ、対応するバニラBOアルゴリズムよりも高速に収束させることができる。
論文 参考訳(メタデータ) (2023-05-30T00:37:50Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Learning to be Global Optimizer [28.88646928299302]
いくつかのベンチマーク関数に対して最適なネットワークとエスケープ能力アルゴリズムを学習する。
学習したアルゴリズムは、よく知られた古典最適化アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-10T03:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。