論文の概要: Robustness in deep learning: The good (width), the bad (depth), and the
ugly (initialization)
- arxiv url: http://arxiv.org/abs/2209.07263v1
- Date: Thu, 15 Sep 2022 12:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:03:46.364390
- Title: Robustness in deep learning: The good (width), the bad (depth), and the
ugly (initialization)
- Title(参考訳): 深層学習におけるロバスト性:良い(幅)、悪い(深さ)、い(初期化)
- Authors: Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher
- Abstract要約: 我々は、(選択された)幅、幅、深さ、浅いディープニューラルネットワークにおける平均ロバスト性の概念と、遅延および非遅延トレーニング設定について検討する。
- 参考スコア(独自算出の注目度): 60.21582414287523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the average robustness notion in deep neural networks in (selected)
wide and narrow, deep and shallow, as well as lazy and non-lazy training
settings. We prove that in the under-parameterized setting, width has a
negative effect while it improves robustness in the over-parameterized setting.
The effect of depth closely depends on the initialization and the training
mode. In particular, when initialized with LeCun initialization, depth helps
robustness with lazy training regime. In contrast, when initialized with Neural
Tangent Kernel (NTK) and He-initialization, depth hurts the robustness.
Moreover, under non-lazy training regime, we demonstrate how the width of a
two-layer ReLU network benefits robustness. Our theoretical developments
improve the results by Huang et al. [2021], Wu et al. [2021] and are consistent
with Bubeck and Sellke [2021], Bubeck et al. [2021].
- Abstract(参考訳): 本研究では,(選択された)幅,幅,深さ,浅い深層ニューラルネットワークにおける平均ロバスト性概念と,怠け者および非怠慢なトレーニング設定について検討した。
低パラメータ設定では幅が負の効果を持つが、過パラメータ設定では頑健性が向上する。
深さの影響は初期化と訓練モードに大きく依存する。
特に、LeCunの初期化で初期化されると、deepは遅延トレーニング体制の堅牢性に役立つ。
対照的に、Neural Tangent Kernel(NTK)とHe-initializationを初期化すると、深さが頑丈さを損なう。
さらに,非遅延学習体制下では,2層ReLUネットワークの幅が堅牢性に与える影響を実証する。
我々の理論的発展は、Huangらによる結果を改善する。
[2021年, Wu et al]
[2021] は Bubeck および Sellke [2021], Bubeck et al と一致している。
[2021].
関連論文リスト
- Improved weight initialization for deep and narrow feedforward neural network [3.0784574277021397]
ReLUニューロンが不活性になり出力がゼロになる"Bluving Dieing ReLU"というテキスト引用の問題は、ReLUアクティベーション機能を備えたディープニューラルネットワークのトレーニングにおいて大きな課題となる。
本稿では,この問題に対処するための新しい重み初期化手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T05:28:12Z) - Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Self-Expanding Neural Networks [24.812671965904727]
ニューラルネットワークの幅と深さの両方を直感的に拡張する自然な勾配に基づくアプローチを導入する。
我々は、ニューロンが加算されるレート'の上限を証明し、拡張スコアに計算的に安価で低いバウンドを証明した。
分類問題と回帰問題の両方において、完全な接続性と畳み込みを備えた自己拡張ニューラルネットワークの利点について説明する。
論文 参考訳(メタデータ) (2023-07-10T12:49:59Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。