論文の概要: Sparse Perturbations for Improved Convergence in Stochastic Zeroth-Order
Optimization
- arxiv url: http://arxiv.org/abs/2006.01759v2
- Date: Mon, 29 Jun 2020 14:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:03:05.039360
- Title: Sparse Perturbations for Improved Convergence in Stochastic Zeroth-Order
Optimization
- Title(参考訳): 確率零次最適化における収束改善のためのスパース摂動
- Authors: Mayumi Ohta, Nathaniel Berger, Artem Sokolov, Stefan Riezler
- Abstract要約: ゼロオーダー(SZO)手法への関心は最近、深いニューラルネットワークに対する敵対的ブラックボックス攻撃のようなブラックボックス最適化シナリオで復活している。
SZO法は、ランダムな入力ポイントで目的関数を評価する能力のみを必要とする。
本稿では,ランダム摂動の次元依存性を低減させるSZO最適化手法を提案する。
- 参考スコア(独自算出の注目度): 10.907491258280608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interest in stochastic zeroth-order (SZO) methods has recently been revived
in black-box optimization scenarios such as adversarial black-box attacks to
deep neural networks. SZO methods only require the ability to evaluate the
objective function at random input points, however, their weakness is the
dependency of their convergence speed on the dimensionality of the function to
be evaluated. We present a sparse SZO optimization method that reduces this
factor to the expected dimensionality of the random perturbation during
learning. We give a proof that justifies this reduction for sparse SZO
optimization for non-convex functions without making any assumptions on
sparsity of objective function or gradient. Furthermore, we present
experimental results for neural networks on MNIST and CIFAR that show faster
convergence in training loss and test accuracy, and a smaller distance of the
gradient approximation to the true gradient in sparse SZO compared to dense
SZO.
- Abstract(参考訳): 確率ゼロオーダー法(SZO)への関心は、最近、深層ニューラルネットワークに対する逆ブラックボックス攻撃のようなブラックボックス最適化シナリオで復活している。
SZO法は、ランダムな入力ポイントで目的関数を評価する能力のみを必要とするが、その弱点は評価対象関数の次元性に対する収束速度の依存性である。
本稿では、学習中のランダム摂動の予測次元にこの因子を還元するスパースSZO最適化法を提案する。
非凸関数に対するスパースSZO最適化のこの削減を、目的関数のスパース性や勾配を仮定することなく正当化する証明を与える。
さらに, MNIST と CIFAR 上のニューラルネットワーク実験の結果, トレーニング損失とテスト精度の収束速度が向上し, スパースSZO の真の勾配への勾配近似距離が SZO よりも小さいことがわかった。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - A Gradient Smoothed Functional Algorithm with Truncated Cauchy Random
Perturbations for Stochastic Optimization [10.820943271350442]
本稿では,雑音の多いコストサンプルに対する期待値であるスムーズな目的関数を最小化するための凸勾配アルゴリズムを提案する。
また,本アルゴリズムは局所最小値への収束を示唆し,レートリリアを回避できることも示している。
論文 参考訳(メタデータ) (2022-07-30T18:50:36Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Non-asymptotic estimates for TUSLA algorithm for non-convex learning
with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。
特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。
TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文 参考訳(メタデータ) (2021-07-19T07:13:02Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Sparse Representations of Positive Functions via First and Second-Order
Pseudo-Mirror Descent [15.340540198612823]
推定器の範囲が非負である必要がある場合、予測されるリスク問題を考察する。
Emphpseudo-gradientsを用いた近似ミラーの1階および2階の変種を開発した。
実験は、実際に不均一なプロセス強度推定に好適な性能を示す。
論文 参考訳(メタデータ) (2020-11-13T21:54:28Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Non-asymptotic bounds for stochastic optimization with biased noisy
gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。
提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文 参考訳(メタデータ) (2020-02-26T12:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。