論文の概要: Learning with Gradient Descent and Weakly Convex Losses
- arxiv url: http://arxiv.org/abs/2101.04968v1
- Date: Wed, 13 Jan 2021 09:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 17:31:17.988805
- Title: Learning with Gradient Descent and Weakly Convex Losses
- Title(参考訳): グラディエントDescentとWakly Convex Lossesによる学習
- Authors: Dominic Richards, Mike Rabbat
- Abstract要約: 本研究では,経験的リスクが弱い場合の勾配降下の学習性能について検討する。
2層ニューラルネットワークの場合、実験的なリスクは局所的な弱凸性の概念を満たすことができることを示す。
- 参考スコア(独自算出の注目度): 14.145079120746614
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study the learning performance of gradient descent when the empirical risk
is weakly convex, namely, the smallest negative eigenvalue of the empirical
risk's Hessian is bounded in magnitude. By showing that this eigenvalue can
control the stability of gradient descent, generalisation error bounds are
proven that hold under a wider range of step sizes compared to previous work.
Out of sample guarantees are then achieved by decomposing the test error into
generalisation, optimisation and approximation errors, each of which can be
bounded and traded off with respect to algorithmic parameters, sample size and
magnitude of this eigenvalue. In the case of a two layer neural network, we
demonstrate that the empirical risk can satisfy a notion of local weak
convexity, specifically, the Hessian's smallest eigenvalue during training can
be controlled by the normalisation of the layers, i.e., network scaling. This
allows test error guarantees to then be achieved when the population risk
minimiser satisfies a complexity assumption. By trading off the network
complexity and scaling, insights are gained into the implicit bias of neural
network scaling, which are further supported by experimental findings.
- Abstract(参考訳): 本研究では,経験的リスクが弱凸である場合の勾配降下の学習性能,すなわち経験的リスクのヘッシアンの最小負の固有値について検討する。
この固有値が勾配降下の安定性を制御できることを示せば、一般化誤差境界は以前の研究よりも広いステップサイズで保持できることが証明される。
サンプル保証のうち、テストエラーを一般化、最適化、近似誤差に分解し、それぞれがアルゴリズムパラメータ、サンプルサイズ、この固有値の大きさに関して有界かつトレードオフできる。
2層ニューラルネットワークの場合、経験的リスクは局所的弱凸の概念を満たすことが示され、特に、トレーニング中のヘッセンの最小固有値は、ネットワークスケーリングと呼ばれるレイヤの正規化によって制御できる。
これにより、人口リスクの最小化者が複雑性の仮定を満たすと、テストエラーの保証が達成される。
ネットワークの複雑さとスケーリングのトレードオフによって、ニューラルネットワークのスケーリングの暗黙のバイアスに洞察が入り込む。
関連論文リスト
- The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - Fine-grained analysis of non-parametric estimation for pairwise learning [9.676007573960383]
ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。
我々の結果は、ランキング、AUC、ペアワイズ回帰、メートル法、類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。
論文 参考訳(メタデータ) (2023-05-31T08:13:14Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Asymptotic Risk of Overparameterized Likelihood Models: Double Descent
Theory for Deep Neural Networks [12.132641563193582]
深層モデルを含む可視性モデルに対する一般クラスのリスクについて検討する。
並列深層ニューラルネットワークやアンサンブル学習など,いくつかの明示的なモデルが我々の理論と一致していることを示す。
論文 参考訳(メタデータ) (2021-02-28T13:02:08Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Log-Likelihood Ratio Minimizing Flows: Towards Robust and Quantifiable
Neural Distribution Alignment [52.02794488304448]
そこで本研究では,対数様比統計量と正規化フローに基づく新しい分布アライメント手法を提案する。
入力領域の局所構造を保存する領域アライメントにおいて,結果の最小化を実験的に検証する。
論文 参考訳(メタデータ) (2020-03-26T22:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。