論文の概要: SA-GD: Improved Gradient Descent Learning Strategy with Simulated
Annealing
- arxiv url: http://arxiv.org/abs/2107.07558v1
- Date: Thu, 15 Jul 2021 18:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:37:20.311694
- Title: SA-GD: Improved Gradient Descent Learning Strategy with Simulated
Annealing
- Title(参考訳): SA-GD:シミュレートアニーリングによるグラディエント・ディフレッシュラーニング戦略の改善
- Authors: Zhicheng Cai
- Abstract要約: 本稿では,機械学習問題を解決するためのSA-GDアルゴリズムを提案する。
SA-GDのモデルは効率を犠牲にすることなくより優れた学習能力を有する。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent algorithm is the most utilized method when optimizing
machine learning issues. However, there exists many local minimums and saddle
points in the loss function, especially for high dimensional non-convex
optimization problems like deep learning. Gradient descent may make loss
function trapped in these local intervals which impedes further optimization,
resulting in poor generalization ability. This paper proposes the SA-GD
algorithm which introduces the thought of simulated annealing algorithm to
gradient descent. SA-GD method offers model the ability of mounting hills in
probability, tending to enable the model to jump out of these local areas and
converge to a optimal state finally. We took CNN models as an example and
tested the basic CNN models on various benchmark datasets. Compared to the
baseline models with traditional gradient descent algorithm, models with SA-GD
algorithm possess better generalization ability without sacrificing the
efficiency and stability of model convergence. In addition, SA-GD can be
utilized as an effective ensemble learning approach which improves the final
performance significantly.
- Abstract(参考訳): 勾配降下アルゴリズムは機械学習問題を最適化する最もよく利用される手法である。
しかし、特に深層学習のような高次元非凸最適化問題では、損失関数に多くの局所最小値と鞍点が存在する。
勾配降下によりこれらの局所区間に損失関数が閉じ込められ、さらなる最適化が妨げられ、一般化能力が低下する。
本稿では, 擬似アニーリングアルゴリズムを勾配降下に導入するSA-GDアルゴリズムを提案する。
SA-GD法は、モデルがこれらの局所領域から飛び出し、最終的に最適な状態に収束する傾向にある、確率で丘をマウントする能力を提供する。
CNNモデルを例として、さまざまなベンチマークデータセット上で、基本的なCNNモデルをテストしました。
従来の勾配降下アルゴリズムのベースラインモデルと比較して、SA-GDアルゴリズムのモデルはモデル収束の効率と安定性を犠牲にすることなく、より優れた一般化能力を有する。
さらに,SA-GDを効果的なアンサンブル学習手法として利用することで,最終的な性能を大幅に向上させることができる。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Differentiable Agent-Based Simulation for Gradient-Guided
Simulation-Based Optimization [0.0]
勾配推定法は局所最適化に向けて最適化を行うのに利用できる。
高入力次元の信号タイミング最適化問題では、勾配に基づく手法の方がかなり優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-23T11:58:21Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Stochastic Gradient Langevin Dynamics Algorithms with Adaptive Drifts [8.36840154574354]
そこで我々は, ドリフト関数を偏り, サドル点からの脱出を促進させ, バイアスを過去のサンプルの勾配に応じて適応的に調整する, 適応的勾配勾配連鎖モンテカルロ(SGMCMC)アルゴリズムを提案する。
本稿では,提案アルゴリズムが既存のSGMCMCアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-20T22:03:39Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。