論文の概要: Lottery Tickets in Evolutionary Optimization: On Sparse
Backpropagation-Free Trainability
- arxiv url: http://arxiv.org/abs/2306.00045v1
- Date: Wed, 31 May 2023 15:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 20:16:41.607564
- Title: Lottery Tickets in Evolutionary Optimization: On Sparse
Backpropagation-Free Trainability
- Title(参考訳): 進化的最適化における抽選チケット:スパースバックプロパゲーションフリートレーサビリティについて
- Authors: Robert Tjarko Lange, Henning Sprekeler
- Abstract要約: 我々は勾配降下(GD)に基づくスパーストレーニングと進化戦略(ES)について研究する。
ESは多様で平坦な局所最適条件を探索し、疎度レベルと独立ランをまたいだ線形モード接続を保たないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is the lottery ticket phenomenon an idiosyncrasy of gradient-based training
or does it generalize to evolutionary optimization? In this paper we establish
the existence of highly sparse trainable initializations for evolution
strategies (ES) and characterize qualitative differences compared to gradient
descent (GD)-based sparse training. We introduce a novel signal-to-noise
iterative pruning procedure, which incorporates loss curvature information into
the network pruning step. This can enable the discovery of even sparser
trainable network initializations when using black-box evolution as compared to
GD-based optimization. Furthermore, we find that these initializations encode
an inductive bias, which transfers across different ES, related tasks and even
to GD-based training. Finally, we compare the local optima resulting from the
different optimization paradigms and sparsity levels. In contrast to GD, ES
explore diverse and flat local optima and do not preserve linear mode
connectivity across sparsity levels and independent runs. The results highlight
qualitative differences between evolution and gradient-based learning dynamics,
which can be uncovered by the study of iterative pruning procedures.
- Abstract(参考訳): 宝くじ現象は勾配に基づくトレーニングの慣用性か、それとも進化最適化に一般化するのか?
本稿では,進化戦略(ES)の高度にスパースな初期化の存在を確立し,勾配降下(GD)に基づくスパーストレーニングと比較して定性的差異を特徴付ける。
本稿では,ネットワークの刈り込みステップにロス曲率情報を組み込んだ,新しい信号対雑音反復刈り込み手法を提案する。
これにより、gdベースの最適化と比較してブラックボックス進化を使用する際に、スパルサーのトレーニング可能なネットワーク初期化も発見できる。
さらに、これらの初期化は誘導バイアスを符号化し、異なるES、関連するタスク、さらにはGDベースのトレーニングへと移行する。
最後に、異なる最適化パラダイムとスパーシティレベルから生じる局所的オプティマを比較する。
GDとは対照的に、ESは多様で平坦な局所最適条件を探索し、疎度レベルと独立ランの線形モード接続を保たない。
その結果,進化過程と勾配に基づく学習ダイナミクスの質的相違が浮き彫り過程の研究によって明らかにされる。
関連論文リスト
- Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Evolution Transformer: In-Context Evolutionary Optimization [6.873777465945062]
本稿では、進化戦略のファミリーを柔軟に特徴付けることができる因果トランスフォーマーアーキテクチャである進化トランスフォーマーを紹介する。
進化的アルゴリズム蒸留(Evolutionary Algorithm Distillation)を用いてモデルの重み付けを訓練する。
進化変換器の動作特性を解析し,進化変換器を自己参照的に学習する手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T14:04:13Z) - On discretisation drift and smoothness regularisation in neural network
training [0.0]
私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。
まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。
NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。
そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
論文 参考訳(メタデータ) (2023-10-21T15:21:36Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Direct Evolutionary Optimization of Variational Autoencoders With Binary
Latents [0.0]
サンプルベース近似や再パラメータ化を使わずに、個別の潜入子で変分オートエンコーダ(VAE)を訓練できることが示される。
大規模な教師付きネットワークとは対照的に、調査対象のVAEは、例えば、よりクリーンなデータや大規模な画像データセットのトレーニングを行うことなく、単一のイメージをノイズ化することができる。
論文 参考訳(メタデータ) (2020-11-27T12:42:12Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。