論文の概要: Guiding Two-Layer Neural Network Lipschitzness via Gradient Descent Learning Rate Constraints
- arxiv url: http://arxiv.org/abs/2502.03792v1
- Date: Thu, 06 Feb 2025 05:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:02.290591
- Title: Guiding Two-Layer Neural Network Lipschitzness via Gradient Descent Learning Rate Constraints
- Title(参考訳): グラディエント・ディフレッシュ・ラーニング・レート制約による2層ニューラルネットワークリピッツネスの誘導
- Authors: Kyle Sung, Anastasis Kratsios, Noah Forman,
- Abstract要約: 経験的リスク最小化における学習率への最終的な減衰の適用は、経験的リスクを妨げないことを示す。
一定のステップサイズ勾配GDでトレーニングされたネットワークは、減衰LRでトレーニングされたネットワークと同様の学習特性を示す。
これは、標準GDでトレーニングされたニューラルネットワークが、すでに非常に正規的な学習者である可能性を示唆している。
- 参考スコア(独自算出の注目度): 7.373617024876726
- License:
- Abstract: We demonstrate that applying an eventual decay to the learning rate (LR) in empirical risk minimization (ERM), where the mean-squared-error loss is minimized using standard gradient descent (GD) for training a two-layer neural network with Lipschitz activation functions, ensures that the resulting network exhibits a high degree of Lipschitz regularity, that is, a small Lipschitz constant. Moreover, we show that this decay does not hinder the convergence rate of the empirical risk, now measured with the Huber loss, toward a critical point of the non-convex empirical risk. From these findings, we derive generalization bounds for two-layer neural networks trained with GD and a decaying LR with a sub-linear dependence on its number of trainable parameters, suggesting that the statistical behaviour of these networks is independent of overparameterization. We validate our theoretical results with a series of toy numerical experiments, where surprisingly, we observe that networks trained with constant step size GD exhibit similar learning and regularity properties to those trained with a decaying LR. This suggests that neural networks trained with standard GD may already be highly regular learners.
- Abstract(参考訳): 実験的リスク最小化(ERM)における学習速度(LR)に結果の減衰を適用し,2層ニューラルネットワークをリプシッツ活性化関数でトレーニングするための標準勾配降下(GD)を用いて平均二乗誤差損失を最小化することにより,結果として得られるネットワークのリプシッツ正則性,すなわち小さなリプシッツ定数を確実にすることを示した。
さらに、この崩壊は、現在ヒューマー損失で測定されている経験的リスクの収束速度を、非凸的経験的リスクの臨界点に向かって妨げるものではないことを示す。
これらの結果から、GDで訓練された2層ニューラルネットワークと、トレーニング可能なパラメータ数にサブ線形依存した減衰LRの一般化境界を導出し、これらのネットワークの統計的挙動が過パラメータ化とは無関係であることを示唆した。
そこでは, 定常ステップサイズGDで訓練されたネットワークが, 減衰LRで訓練したネットワークと類似した学習特性と規則性を示すことを示した。
これは、標準GDでトレーニングされたニューラルネットワークが、すでに非常に正規的な学習者である可能性を示唆している。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Learning Lipschitz Functions by GD-trained Shallow Overparameterized
ReLU Neural Networks [12.018422134251384]
このクラスでは、トレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが矛盾していることが示される。
ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適率(過剰リスク)を与えることが保証されたとき、同じ規則を極大最適率を達成するために使うことができることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:56:27Z) - Can pruning improve certified robustness of neural networks? [106.03070538582222]
ニューラルネット・プルーニングはディープ・ニューラル・ネットワーク(NN)の実証的ロバスト性を向上させることができることを示す。
実験の結果,NNを適切に刈り取ることで,その精度を8.2%まで向上させることができることがわかった。
さらに,認証された宝くじの存在が,従来の密集モデルの標準および認証された堅牢な精度に一致することを観察する。
論文 参考訳(メタデータ) (2022-06-15T05:48:51Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Path classification by stochastic linear recurrent neural networks [2.5499055723658097]
トレーニングや分類作業に利用されるユニークな情報として,RNNが供給される経路の部分的なシグネチャを保持することを示す。
これらのRNNは訓練が容易で堅牢であり、これらの観測を合成データと実データの両方で数値実験で裏付けるものである、と我々は主張する。
論文 参考訳(メタデータ) (2021-08-06T12:59:12Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。