論文の概要: Criticality versus uniformity in deep neural networks
- arxiv url: http://arxiv.org/abs/2304.04784v1
- Date: Mon, 10 Apr 2023 18:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 17:12:49.536051
- Title: Criticality versus uniformity in deep neural networks
- Title(参考訳): ディープニューラルネットワークの臨界性と均一性
- Authors: Aleksandar Bukva, Jurriaan de Gier, Kevin T. Grosvenor, Ro Jefferson,
Koenraad Schalm, Eliot Schwander
- Abstract要約: カオスの端に沿った深いフィードフォワードネットワークは、最大トレーニング可能な深さで定量化されるように、指数関数的に優れたトレーニング能力を示す。
特に、活性化後の分布が最大エントロピーを持つ位相空間における均一性の線を決定する。
- 参考スコア(独自算出の注目度): 52.77024349608834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep feedforward networks initialized along the edge of chaos exhibit
exponentially superior training ability as quantified by maximum trainable
depth. In this work, we explore the effect of saturation of the tanh activation
function along the edge of chaos. In particular, we determine the line of
uniformity in phase space along which the post-activation distribution has
maximum entropy. This line intersects the edge of chaos, and indicates the
regime beyond which saturation of the activation function begins to impede
training efficiency. Our results suggest that initialization along the edge of
chaos is a necessary but not sufficient condition for optimal trainability.
- Abstract(参考訳): カオスの縁に沿って初期化されたディープフィードフォワードネットワークは、最大訓練可能な深さで定量化されるように指数関数的に優れたトレーニング能力を示す。
本研究では,カオスの端に沿ったタンハ活性化関数の飽和効果について検討する。
特に、活性化後の分布が最大エントロピーを持つ位相空間における均一性の線を決定する。
この線はカオスのエッジと交差し、活性化関数の飽和がトレーニング効率を阻害し始めるレジームを示す。
以上より,カオスのエッジに沿った初期化は必要ではあるが,最適トレーサビリティには十分でないことを示唆する。
関連論文リスト
- Training on the Edge of Stability Is Caused by Layerwise Jacobian Alignment [0.0]
我々は指数的解法を用いて、安定性の端に入ることなくニューラルネットワークを訓練する。
実験により,ヘッセン行列の鋭さの増加は,ネットワークの層状ジャコビアン行列の整合性によって引き起こされることを示した。
論文 参考訳(メタデータ) (2024-05-31T18:37:06Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Convergence and Implicit Regularization Properties of Gradient Descent
for Deep Residual Networks [7.090165638014331]
一定の層幅とスムーズな活性化関数を持つ深層残留ネットワークのトレーニングにおいて,勾配勾配の線形収束性を大域最小限に証明する。
トレーニングされた重みは、層指数の関数として、ネットワークの深さが無限大になる傾向にあるため、H"古い"スケーリング制限が連続であることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:50:28Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Activation function design for deep networks: linearity and effective
initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文 参考訳(メタデータ) (2021-05-17T11:30:46Z) - Eccentric Regularization: Minimizing Hyperspherical Energy without
explicit projection [0.913755431537592]
アイテム間の一対の反発力をシミュレートする新しい正規化損失関数を紹介します。
この損失関数を分離して最小化すると超球面分布が得られることを示す。
本稿では,この偏心正規化手法をオートエンコーダに適用し,画像生成,表現学習,下流分類タスクにおいてその効果を示す。
論文 参考訳(メタデータ) (2021-04-23T13:55:17Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。