論文の概要: Evolutionary Algorithms in the Light of SGD: Limit Equivalence, Minima
Flatness, and Transfer Learning
- arxiv url: http://arxiv.org/abs/2306.09991v1
- Date: Sat, 20 May 2023 22:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:47:46.072481
- Title: Evolutionary Algorithms in the Light of SGD: Limit Equivalence, Minima
Flatness, and Transfer Learning
- Title(参考訳): SGDの光における進化的アルゴリズム:限界等価性、ミニマ平坦性、伝達学習
- Authors: Andrei Kucharavy, Rachid Guerraoui and Ljiljana Dolamic
- Abstract要約: 我々は、自然進化のためのGillespie-Orr変異ランドスケープモデルにインスパイアされた進化的アルゴリズムのクラス(EA)が、正式にはグラディエント・Descent(SGD)と等価であることを示す。
次に,ANNがほぼ最適あるいは伝達学習環境で訓練された場合,同値性はミューチュアルランドスケープモデルからSGDへの洞察の伝達にも有効であることを示す。
- 参考スコア(独自算出の注目度): 7.262048441360132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whenever applicable, the Stochastic Gradient Descent (SGD) has shown itself
to be unreasonably effective. Instead of underperforming and getting trapped in
local minima due to the batch noise, SGD leverages it to learn to generalize
better and find minima that are good enough for the entire dataset. This led to
numerous theoretical and experimental investigations, especially in the context
of Artificial Neural Networks (ANNs), leading to better machine learning
algorithms. However, SGD is not applicable in a non-differentiable setting,
leaving all that prior research off the table.
In this paper, we show that a class of evolutionary algorithms (EAs) inspired
by the Gillespie-Orr Mutational Landscapes model for natural evolution is
formally equivalent to SGD in certain settings and, in practice, is well
adapted to large ANNs. We refer to such EAs as Gillespie-Orr EA class (GO-EAs)
and empirically show how an insight transfer from SGD can work for them. We
then show that for ANNs trained to near-optimality or in the transfer learning
setting, the equivalence also allows transferring the insights from the
Mutational Landscapes model to SGD.
We then leverage this equivalence to experimentally show how SGD and GO-EAs
can provide mutual insight through examples of minima flatness, transfer
learning, and mixing of individuals in EAs applied to large models.
- Abstract(参考訳): 適用される場合、SGD(Stochastic Gradient Descent)は不合理な効果を示す。
バッチノイズのためにローカルのミニマに過小評価され、閉じ込められるのではなく、SGDはそれを活用して、より一般化し、データセット全体に対して十分なミニマを見つけるために学習する。
これにより、特にニューラルネットワーク(anns)の文脈において、多くの理論的および実験的研究が行われ、機械学習アルゴリズムが改善された。
しかし、sgdは微分不能な設定では適用できず、以前のすべての研究は表から外される。
本稿では、自然進化のためのGillespie-Orr変異ランドスケープモデルにインスパイアされた進化的アルゴリズム(EA)のクラスが、特定の環境ではSGDと正式に等価であり、実際は大きなANNによく適応していることを示す。
我々は、Gillespie-Orr EA class (GO-EAs) などのEAについて言及し、SGDからの洞察伝達がどのように機能するかを実証的に示す。
次に,ANNがほぼ最適あるいは伝達学習環境で訓練された場合,同値性はミューチュアルランドスケープモデルからSGDへの洞察の伝達にも有効であることを示す。
次に、この等価性を活用して、SGDとGO-EAが、大規模モデルに適用されたEAにおける個人のミニマ平坦性、移行学習、混合の例を通して、相互の洞察を提供する方法を実験的に示す。
関連論文リスト
- Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation [3.6185342807265415]
厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。
本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。
この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
論文 参考訳(メタデータ) (2024-10-14T14:11:37Z) - The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - Benign Oscillation of Stochastic Gradient Descent with Large Learning
Rates [21.8377731053374]
勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について検討した。
このようなトレーニング体制下では,SGDトレーニングによるNN重みの振動は,NNの一般化に有益であることが判明した。
論文 参考訳(メタデータ) (2023-10-26T00:35:40Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。