論文の概要: On progressive sharpening, flat minima and generalisation
- arxiv url: http://arxiv.org/abs/2305.14683v3
- Date: Fri, 1 Sep 2023 18:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 05:04:43.892328
- Title: On progressive sharpening, flat minima and generalisation
- Title(参考訳): プログレッシブ・シャープニング, フラット・ミニマおよび一般化について
- Authors: Lachlan Ewen MacDonald and Jack Valmadre and Simon Lucey
- Abstract要約: 深層学習における損失曲率と入出力モデル行動の関係を理解するための新しい手法を提案する。
我々は、深層ニューラルネットワークのロス・ヘッセンと入力出力ヤコビアンをトレーニング全体を通してトレーニングサンプルに結びつけるアンザッツを接地する。
次に、モデルの入出力ヤコビアンがそのデータ分布上のリプシッツノルムを近似する程度を定量化する一連の理論的結果を証明する。
我々は、我々のアンサッツと理論結果を用いて、最近観測されたプログレッシブ・シャープニング現象の新しい説明と、平らなミニの一般化特性を与える。
- 参考スコア(独自算出の注目度): 39.91683439206866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new approach to understanding the relationship between loss
curvature and input-output model behaviour in deep learning. Specifically, we
use existing empirical analyses of the spectrum of deep network loss Hessians
to ground an ansatz tying together the loss Hessian and the input-output
Jacobian of a deep neural network over training samples throughout training. We
then prove a series of theoretical results which quantify the degree to which
the input-output Jacobian of a model approximates its Lipschitz norm over a
data distribution, and deduce a novel generalisation bound in terms of the
empirical Jacobian. We use our ansatz, together with our theoretical results,
to give a new account of the recently observed progressive sharpening
phenomenon, as well as the generalisation properties of flat minima.
Experimental evidence is provided to validate our claims.
- Abstract(参考訳): 深層学習における損失曲率と入出力モデル行動の関係を理解するための新しい手法を提案する。
具体的には,ディープニューラルネットワークの損失ヒューシアンと入力出力ジャコビアンとをトレーニング中のトレーニングサンプルに結合したアンサッツを接地するために,ディープネットワーク損失ヘッシアンスペクトルの既存の経験的解析を用いる。
次に、モデルの入力出力ジャコビアンがデータ分布上のそのリプシッツノルムを近似する程度を定量化する一連の理論結果を証明し、経験的ヤコビアンによって束縛された新しい一般化を導出する。
我々はansatzを理論的な結果とともに利用し、最近観測されたプログレッシブ・シャープニング現象とフラット・ミニマの一般化特性について新しい説明を与える。
我々の主張を検証するための実験的な証拠が提供される。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Gaussian Universality in Neural Network Dynamics with Generalized Structured Input Distributions [2.3020018305241337]
ガウス混合体としてモデル化された入力に基づいて学習したディープラーニングシステムの振る舞いを分析し,より汎用的な入力をシミュレートする。
特定の標準化スキームの下では、入力データがより複雑あるいは実世界の分布に従う場合でも、ディープラーニングモデルはガウス的な設定行動に収束する。
論文 参考訳(メタデータ) (2024-05-01T17:10:55Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Sparsity-aware generalization theory for deep neural networks [12.525959293825318]
本稿では、ディープフィードフォワードReLUネットワークの一般化を解析するための新しいアプローチを提案する。
空間性と一般化の基本的なトレードオフを示す。
論文 参考訳(メタデータ) (2023-07-01T20:59:05Z) - Fine-grained analysis of non-parametric estimation for pairwise learning [9.676007573960383]
ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。
我々の結果は、ランキング、AUC、ペアワイズ回帰、メートル法、類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。
論文 参考訳(メタデータ) (2023-05-31T08:13:14Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Applicability of Random Matrix Theory in Deep Learning [0.966840768820136]
本研究では,ニューラルネットワークの損失面ヘッシアンの局所スペクトル統計について検討する。
ニューラルネットワークのモデリングにおけるランダム行列理論の適用性に新たな光を当てた。
本稿では,ニューラルネットワークの真の損失面に対する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-02-12T19:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。