論文の概要: FAM: Relative Flatness Aware Minimization
- arxiv url: http://arxiv.org/abs/2307.02337v1
- Date: Wed, 5 Jul 2023 14:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:27:28.470321
- Title: FAM: Relative Flatness Aware Minimization
- Title(参考訳): FAM: 相対的平坦度認識最小化
- Authors: Linara Adilova, Amr Abourayya, Jianning Li, Amin Dada, Henning Petzka,
Jan Egger, Jens Kleesiek, Michael Kamp
- Abstract要約: 平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
- 参考スコア(独自算出の注目度): 5.132856559837775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flatness of the loss curve around a model at hand has been shown to
empirically correlate with its generalization ability. Optimizing for flatness
has been proposed as early as 1994 by Hochreiter and Schmidthuber, and was
followed by more recent successful sharpness-aware optimization techniques.
Their widespread adoption in practice, though, is dubious because of the lack
of theoretically grounded connection between flatness and generalization, in
particular in light of the reparameterization curse - certain
reparameterizations of a neural network change most flatness measures but do
not change generalization. Recent theoretical work suggests that a particular
relative flatness measure can be connected to generalization and solves the
reparameterization curse. In this paper, we derive a regularizer based on this
relative flatness that is easy to compute, fast, efficient, and works with
arbitrary loss functions. It requires computing the Hessian only of a single
layer of the network, which makes it applicable to large neural networks, and
with it avoids an expensive mapping of the loss surface in the vicinity of the
model. In an extensive empirical evaluation we show that this relative flatness
aware minimization (FAM) improves generalization in a multitude of applications
and models, both in finetuning and standard training. We make the code
available at github.
- Abstract(参考訳): 模型の周りの損失曲線の平坦性は、その一般化能力と経験的に相関することが示されている。
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案され、その後より最近のシャープネス対応最適化技術が成功した。
しかし、彼らの実践において広く採用されているのは、フラットネスと一般化の間の理論的に基礎的なつながりが欠如していること、特に再パラメータ化の呪いに照らしてである。
最近の理論研究は、特定の相対平坦性測度が一般化と結び付き、再パラメータ化の呪いを解くことを示唆している。
本稿では,この相対平坦性に基づく正規化子を導出し,計算が容易で,高速,効率的であり,任意の損失関数を扱う。
ネットワークの単一層のみのヘッセン計算が必要であり、大規模ニューラルネットワークに適用可能であり、モデル近傍の損失面の高価なマッピングを避けることができる。
この相対的平坦性認識最小化(FAM)は、ファインタニングと標準トレーニングの両方において、様々なアプリケーションやモデルの一般化を改善することを示す。
コードはgithubで公開しています。
関連論文リスト
- Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To
Achieve Better Generalization [29.90109733192208]
既存の理論では、一般的なアーキテクチャはトレーニング損失のより平らな最小化を好んでいる。
この研究は、この説明を批判的に検証する。
以上の結果から,シャープネスと一般化の関係は微妙にデータに依存することが示唆された。
論文 参考訳(メタデータ) (2023-07-20T16:34:58Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - A Modern Look at the Relationship between Sharpness and Generalization [64.03012884804458]
ミニマのシャープ性は、ディープネットワークの一般化と相関できる有望な量である。
シャープネスは、ニューラルネットワークの再パラメータ化の下では不変ではない。
シャープネスは一般化とよく相関しないことを示す。
論文 参考訳(メタデータ) (2023-02-14T12:38:12Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Flatness is a False Friend [0.7614628596146599]
ヘッセンに基づく平坦性の測度は、一般化に関連して議論され、使用され、示されている。
交叉エントロピー損失下でのフィードフォワードニューラルネットワークでは、大きな重みを持つ低損失解が、平らさの小さなヘッセン的基準を持つことを期待する。
論文 参考訳(メタデータ) (2020-06-16T11:55:24Z) - Overparameterization and generalization error: weighted trigonometric
interpolation [4.631723879329972]
本研究では,未知のフーリエ係数を等価試料から推定するランダムフーリエ級数モデルについて検討する。
滑らかな補間物に対する偏りが、重み付き三角法一般化の形でどのようにしてより小さい一般化誤差をもたらすかを正確に示す。
論文 参考訳(メタデータ) (2020-06-15T15:53:22Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。