論文の概要: Evolutionary Algorithms in the Light of SGD: Limit Equivalence, Minima
Flatness, and Transfer Learning
- arxiv url: http://arxiv.org/abs/2306.09991v1
- Date: Sat, 20 May 2023 22:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:47:46.072481
- Title: Evolutionary Algorithms in the Light of SGD: Limit Equivalence, Minima
Flatness, and Transfer Learning
- Title(参考訳): SGDの光における進化的アルゴリズム:限界等価性、ミニマ平坦性、伝達学習
- Authors: Andrei Kucharavy, Rachid Guerraoui and Ljiljana Dolamic
- Abstract要約: 我々は、自然進化のためのGillespie-Orr変異ランドスケープモデルにインスパイアされた進化的アルゴリズムのクラス(EA)が、正式にはグラディエント・Descent(SGD)と等価であることを示す。
次に,ANNがほぼ最適あるいは伝達学習環境で訓練された場合,同値性はミューチュアルランドスケープモデルからSGDへの洞察の伝達にも有効であることを示す。
- 参考スコア(独自算出の注目度): 7.262048441360132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whenever applicable, the Stochastic Gradient Descent (SGD) has shown itself
to be unreasonably effective. Instead of underperforming and getting trapped in
local minima due to the batch noise, SGD leverages it to learn to generalize
better and find minima that are good enough for the entire dataset. This led to
numerous theoretical and experimental investigations, especially in the context
of Artificial Neural Networks (ANNs), leading to better machine learning
algorithms. However, SGD is not applicable in a non-differentiable setting,
leaving all that prior research off the table.
In this paper, we show that a class of evolutionary algorithms (EAs) inspired
by the Gillespie-Orr Mutational Landscapes model for natural evolution is
formally equivalent to SGD in certain settings and, in practice, is well
adapted to large ANNs. We refer to such EAs as Gillespie-Orr EA class (GO-EAs)
and empirically show how an insight transfer from SGD can work for them. We
then show that for ANNs trained to near-optimality or in the transfer learning
setting, the equivalence also allows transferring the insights from the
Mutational Landscapes model to SGD.
We then leverage this equivalence to experimentally show how SGD and GO-EAs
can provide mutual insight through examples of minima flatness, transfer
learning, and mixing of individuals in EAs applied to large models.
- Abstract(参考訳): 適用される場合、SGD(Stochastic Gradient Descent)は不合理な効果を示す。
バッチノイズのためにローカルのミニマに過小評価され、閉じ込められるのではなく、SGDはそれを活用して、より一般化し、データセット全体に対して十分なミニマを見つけるために学習する。
これにより、特にニューラルネットワーク(anns)の文脈において、多くの理論的および実験的研究が行われ、機械学習アルゴリズムが改善された。
しかし、sgdは微分不能な設定では適用できず、以前のすべての研究は表から外される。
本稿では、自然進化のためのGillespie-Orr変異ランドスケープモデルにインスパイアされた進化的アルゴリズム(EA)のクラスが、特定の環境ではSGDと正式に等価であり、実際は大きなANNによく適応していることを示す。
我々は、Gillespie-Orr EA class (GO-EAs) などのEAについて言及し、SGDからの洞察伝達がどのように機能するかを実証的に示す。
次に,ANNがほぼ最適あるいは伝達学習環境で訓練された場合,同値性はミューチュアルランドスケープモデルからSGDへの洞察の伝達にも有効であることを示す。
次に、この等価性を活用して、SGDとGO-EAが、大規模モデルに適用されたEAにおける個人のミニマ平坦性、移行学習、混合の例を通して、相互の洞察を提供する方法を実験的に示す。
関連論文リスト
- On the Trajectories of SGD Without Replacement [0.0]
本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々は、大規模なニューラルネットワークを最適化するために一般的に使用される変種である、置換のないSGDの場合を考える。
論文 参考訳(メタデータ) (2023-12-26T18:06:48Z) - Benign Oscillation of Stochastic Gradient Descent with Large Learning
Rates [21.8377731053374]
勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について検討した。
このようなトレーニング体制下では,SGDトレーニングによるNN重みの振動は,NNの一般化に有益であることが判明した。
論文 参考訳(メタデータ) (2023-10-26T00:35:40Z) - Dissecting adaptive methods in GANs [46.90376306847234]
我々は、適応的手法がGAN(Generative Adversarial Network)の訓練にどう役立つかを検討する。
我々は,Adam更新の程度とSGDの正規化方向の更新ルールを考慮し,Adamの適応度がGANトレーニングの鍵であることを実証的に示す。
この設定では、nSGDAで訓練されたGANが真の分布のすべてのモードを回復するのに対し、SGDA(および学習率構成)で訓練された同じネットワークはモード崩壊に悩まされていることを証明している。
論文 参考訳(メタデータ) (2022-10-09T19:00:07Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - SGD with a Constant Large Learning Rate Can Converge to Local Maxima [4.014524824655106]
我々は、勾配降下が奇妙で望ましくない振る舞いを示す可能性があることを示す最悪の最適化問題を構築する。
具体的には、SGDが局所的な最大値に収束するようにランドスケープとデータ分布を構築する。
本結果は,ミニバッチサンプリング,離散時間更新ルール,現実的な景観を同時に解析することの重要性を強調した。
論文 参考訳(メタデータ) (2021-07-25T10:12:18Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。