論文の概要: Combining resampling and reweighting for faithful stochastic
optimization
- arxiv url: http://arxiv.org/abs/2105.14694v1
- Date: Mon, 31 May 2021 04:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 06:16:18.039511
- Title: Combining resampling and reweighting for faithful stochastic
optimization
- Title(参考訳): 忠実確率最適化のための再サンプリングと再重み付けの組み合わせ
- Authors: Jing An, Lexing Ying
- Abstract要約: 損失関数が複数の項の和であるとき、一般的な方法は勾配降下である。
損失関数における複数の項のリプシッツ定数の差は、異なる最小値における異なる分散への勾配降下を引き起こすことを示す。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning and data science tasks require solving non-convex
optimization problems. When the loss function is a sum of multiple terms, a
popular method is stochastic gradient descent. Viewed as a process for sampling
the loss function landscape, the stochastic gradient descent is known to prefer
flat local minimums. Though this is desired for certain optimization problems
such as in deep learning, it causes issues when the goal is to find the global
minimum, especially if the global minimum resides in a sharp valley.
Illustrated with a simple motivating example, we show that the fundamental
reason is that the difference in the Lipschitz constants of multiple terms in
the loss function causes stochastic gradient descent to experience different
variances at different minimums. In order to mitigate this effect and perform
faithful optimization, we propose a combined resampling-reweighting scheme to
balance the variance at local minimums and extend to general loss functions. We
also explain from the stochastic asymptotics perspective how the proposed
scheme is more likely to select the true global minimum when compared with the
vanilla stochastic gradient descent. Experiments from robust statistics,
computational chemistry, and neural network training are provided to
demonstrate the theoretical findings.
- Abstract(参考訳): 多くの機械学習とデータサイエンスタスクは、非凸最適化問題を解く必要がある。
損失関数が複数の項の和であるとき、一般的な方法は確率勾配降下である。
損失関数ランドスケープをサンプリングするプロセスとして、確率勾配降下は平坦な局所最小値を好むことが知られている。
これはディープラーニングのような特定の最適化問題に対して望ましいが、特にグローバル最小値が鋭い谷にある場合、グローバル最小値を見つけることが目標となると問題を引き起こす。
単純なモチベーションの例として、損失関数における複数の項のリプシッツ定数の差が確率勾配降下を引き起こし、異なる最小値で異なる分散を経験することの根本的な理由が示されている。
この効果を緩和し、忠実な最適化を行うために、局所最小値における分散のバランスをとり、一般損失関数に拡張する、サンプルリング・重み付けスキームを提案する。
また, 確率的漸近性の観点から, 提案手法がバニラ確率的勾配勾配よりも真の大域最小値を選択する可能性が示唆された。
理論的知見を示すために、ロバスト統計、計算化学、ニューラルネットワークトレーニングの実験が提供されている。
関連論文リスト
- An Adaptive Stochastic Gradient Method with Non-negative Gauss-Newton Stepsizes [17.804065824245402]
機械学習の応用では、各損失関数は非負であり、平方根とその実数値平方根の構成として表すことができる。
本稿では, ガウス・ニュートン法やレフスカルト法を適用して, 滑らかだが非負な関数の平均を最小化する方法を示す。
論文 参考訳(メタデータ) (2024-07-05T08:53:06Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Gradient flows and randomised thresholding: sparse inversion and
classification [0.0]
スパースインバージョンと分類問題は、現代のデータサイエンスとイメージングにおいて至るところに存在している。
分類において、例えば、データの忠実度項と非滑らかなギンズバーグ-ランダウエネルギーの和を考える。
標準(サブ)勾配降下法はそのような問題にアプローチする際に非効率であることが示されている。
論文 参考訳(メタデータ) (2022-03-22T09:21:14Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Why Do Local Methods Solve Nonconvex Problems? [54.284687261929115]
非使用最適化は、現代の機械学習においてユビキタスである。
機械学習問題の場合、厳格に定式化します。
我々はこの現象の統一的な説明を仮定する。
論文 参考訳(メタデータ) (2021-03-24T19:34:11Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。