論文の概要: Questions for Flat-Minima Optimization of Modern Neural Networks
- arxiv url: http://arxiv.org/abs/2202.00661v2
- Date: Wed, 2 Feb 2022 18:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 12:44:30.296567
- Title: Questions for Flat-Minima Optimization of Modern Neural Networks
- Title(参考訳): 現代ニューラルネットワークのフラットミニマ最適化への疑問
- Authors: Jean Kaddour, Linqing Liu, Ricardo Silva, Matt J. Kusner
- Abstract要約: 平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
- 参考スコア(独自算出の注目度): 28.12506392321345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For training neural networks, flat-minima optimizers that seek to find
parameters in neighborhoods having uniformly low loss (flat minima) have been
shown to improve upon stochastic and adaptive gradient-based methods. Two
methods for finding flat minima stand out: 1. Averaging methods (i.e.,
Stochastic Weight Averaging, SWA), and 2. Minimax methods (i.e., Sharpness
Aware Minimization, SAM). However, despite similar motivations, there has been
limited investigation into their properties and no comprehensive comparison
between them. In this work, we investigate the loss surfaces from a systematic
benchmarking of these approaches across computer vision, natural language
processing, and graph learning tasks. The results lead to a simple hypothesis:
since both approaches find different flat solutions, combining them should
improve generalization even further. We verify this improves over either
flat-minima approach in 39 out of 42 cases. When it does not, we investigate
potential reasons. We hope our results across image, graph, and text data will
help researchers to improve deep learning optimizers, and practitioners to
pinpoint the optimizer for the problem at hand.
- Abstract(参考訳): ニューラルネットワークのトレーニングでは、一様低損失(フラットミニマ)近傍のパラメータを求めるフラットミニマオプティマイザが、確率的および適応的勾配に基づく手法により改善することが示されている。
平らなミニマを見つけるための2つの方法が際立っている。
1.平均化方法(確率ウェイト平均化、SWA)及び
2.ミニマックス法(シャープネス認識最小化、SAM)
しかし、同様の動機にもかかわらず、その性質に関する調査は限られており、両者の包括的比較は行われていない。
本研究では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの体系的ベンチマークによる損失面について検討する。
どちらのアプローチも異なるフラットな解を見つけるため、それらを組み合わせることで一般化をさらに改善できるという単純な仮説が導かれる。
42例中39例において,フラットミニマアプローチによる改善が確認できた。
そうでなければ、潜在的な理由を調査する。
画像、グラフ、テキストデータにわたる結果が、研究者がディープラーニングオプティマイザを改善するのに役立つことを期待しています。
関連論文リスト
- FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:16:12Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - How to escape sharp minima with random perturbations [48.095392390925745]
平らなミニマの概念とそれらを見つける複雑さについて研究する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて論じる。
コスト関数がトレーニングデータよりも経験的リスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:12:33Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - AlterSGD: Finding Flat Minima for Continual Learning by Alternative
Training [11.521519687645428]
本稿では,損失景観における平らな最小値を求めるために,AlterSGDと呼ばれるシンプルで効果的な最適化手法を提案する。
このような戦略は、最適化が平坦なミニマに収束することを促進できることを示す。
セマンティックセグメンテーションのための連続学習ベンチマーク上でAlterSGDを検証し、実験結果から、忘れを著しく軽減できることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:43:51Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。