論文の概要: Flatten the Curve: Efficiently Training Low-Curvature Neural Networks
- arxiv url: http://arxiv.org/abs/2206.07144v1
- Date: Tue, 14 Jun 2022 20:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 00:16:18.550757
- Title: Flatten the Curve: Efficiently Training Low-Curvature Neural Networks
- Title(参考訳): 曲線のフラット化:低曲率ニューラルネットワークの効率的なトレーニング
- Authors: Suraj Srinivas, Kyle Matoba, Himabindu Lakkaraju, Francois Fleuret
- Abstract要約: 非線型性の度合いをエンコードする数学的量である曲率を考える。
標準モデルよりも大幅に低い曲率が得られる低曲率ニューラルネットワーク(LCNN)を実証する。
私たちのアプローチは使いやすく、既存のニューラルネットワークモデルに簡単に組み込むことができます。
- 参考スコア(独自算出の注目度): 16.129787241917835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The highly non-linear nature of deep neural networks causes them to be
susceptible to adversarial examples and have unstable gradients which hinders
interpretability. However, existing methods to solve these issues, such as
adversarial training, are expensive and often sacrifice predictive accuracy.
In this work, we consider curvature, which is a mathematical quantity which
encodes the degree of non-linearity. Using this, we demonstrate low-curvature
neural networks (LCNNs) that obtain drastically lower curvature than standard
models while exhibiting similar predictive performance, which leads to improved
robustness and stable gradients, with only a marginally increased training
time. To achieve this, we minimize a data-independent upper bound on the
curvature of a neural network, which decomposes overall curvature in terms of
curvatures and slopes of its constituent layers. To efficiently minimize this
bound, we introduce two novel architectural components: first, a non-linearity
called centered-softplus that is a stable variant of the softplus
non-linearity, and second, a Lipschitz-constrained batch normalization layer.
Our experiments show that LCNNs have lower curvature, more stable gradients
and increased off-the-shelf adversarial robustness when compared to their
standard high-curvature counterparts, all without affecting predictive
performance. Our approach is easy to use and can be readily incorporated into
existing neural network models.
- Abstract(参考訳): ディープニューラルネットワークの非常に非線形な性質は、敵対的な例に影響を受けやすく、解釈可能性を妨げる不安定な勾配を持つ。
しかし、これらの問題を解決する既存の方法、例えば敵の訓練は高価であり、予測精度を犠牲にすることが多い。
本研究では,非線型性の度合いをエンコードする数学的量である曲率について考察する。
これを用いて、標準モデルよりも大幅に低い曲率を得る低曲率ニューラルネットワーク(LCNN)を実証し、同様の予測性能を示し、より堅牢性と安定した勾配を向上し、トレーニング時間はわずかに増加した。
これを実現するために、ニューラルネットワークの曲率に関するデータ非依存な上限を最小化し、その構成層の曲率と傾斜の点で全体の曲率を分解する。
まず, ソフトプラス非線形性の安定な変種である centered-softplus と呼ばれる非線形性と, リプシッツ拘束バッチ正規化層である lipschitz-constrained batch normalization layer という2つの新しいアーキテクチャコンポーネントを導入する。
実験の結果,lcnnは,標準の高曲率値と比較すると,より低い曲率,より安定した勾配を示し,既成の逆方向の頑健性が増すことが示され,いずれも予測性能に影響を与えなかった。
我々のアプローチは簡単に使用でき、既存のニューラルネットワークモデルに容易に組み込むことができます。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Cross Entropy versus Label Smoothing: A Neural Collapse Perspective [4.099188602987316]
本稿では,強力な経験的・理論的枠組みであるNeural Collapse(NC)の観点から,スムースなラベル付けについて検討する。
まず、ラベルの平滑化で訓練されたモデルは、神経崩壊解に早く収束し、より強力な神経崩壊レベルに達することを実証的に示す。
論文 参考訳(メタデータ) (2024-02-06T13:16:50Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Linearity Grafting: Relaxed Neuron Pruning Helps Certifiable Robustness [172.61581010141978]
証明可能な堅牢性は、安全クリティカルなシナリオでディープニューラルネットワーク(DNN)を採用する上で望ましい特性である。
線形性の適切なレベルを「グラフト」することで、神経細胞を戦略的に操作する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2022-06-15T22:42:29Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。