論文の概要: How Controlling the Variance can Improve Training Stability of Sparsely Activated DNNs and CNNs
- arxiv url: http://arxiv.org/abs/2602.05779v1
- Date: Thu, 05 Feb 2026 15:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.007962
- Title: How Controlling the Variance can Improve Training Stability of Sparsely Activated DNNs and CNNs
- Title(参考訳): 疎活性化DNNとCNNの訓練安定性向上のための可変性制御法
- Authors: Emily Dent, Jared Tanner,
- Abstract要約: 本稿では, ガウス過程の未利用選択分散が, 疎性誘導活性化を伴う深層ネットワークの訓練において重要であることを示す。
具体的には、ガウス過程のばらつきが大きくなる初期化により、DNNやCNNの90%の活性化間隔で表現性を向上させることができる。
- 参考スコア(独自算出の注目度): 6.292820411382416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The intermediate layers of deep networks can be characterised as a Gaussian process, in particular the Edge-of-Chaos (EoC) initialisation strategy prescribes the limiting covariance matrix of the Gaussian process. Here we show that the under-utilised chosen variance of the Gaussian process is important in the training of deep networks with sparsity inducing activation, such as a shifted and clipped ReLU, $\text{CReLU}_{τ,m}(x)=\min(\max(x-τ,0),m)$. Specifically, initialisations leading to larger fixed Gaussian process variances, allow for improved expressivity with activation sparsity as large as 90% in DNNs and CNNs, and generally improve the stability of the training process. Enabling full, or near full, accuracy at such high levels of sparsity in the hidden layers suggests a promising mechanism to reduce the energy consumption of machine learning models involving fully connected layers.
- Abstract(参考訳): ディープネットワークの中間層はガウス過程として特徴づけることができるが、特にエッジ・オブ・カオス(EoC)初期化戦略はガウス過程の制限共分散行列を規定している。
ここでは、ガウス過程の未利用選択分散が、シフト・クリップされたReLU, $\text{CReLU}_{τ,m}(x)=\min(\max(x-τ,0),m)$ のような、疎性誘導活性化を伴うディープネットワークのトレーニングにおいて重要であることを示す。
具体的には、ガウス過程のばらつきが大きくなる初期化により、DNNやCNNの90%の活性化間隔で表現性が向上し、トレーニングプロセスの安定性が向上する。
隠れた層にそのような高いレベルの空間性で完全な、あるいはほぼ完全な精度を実現することは、完全に接続された層を含む機械学習モデルのエネルギー消費を減らすための有望なメカニズムを示唆している。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - LipKernel: Lipschitz-Bounded Convolutional Neural Networks via Dissipative Layers [0.0468732641979009]
本稿では,畳み込みニューラルネットワーク(CNN)の階層的パラメータ化を提案する。
提案手法は,2次元ロエサー型状態空間モデルを用いて,散逸型畳み込みカーネルを直接パラメータ化する。
提案手法を用いた実行時間は,最先端のリプシッツ有界ネットワークよりも桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:20:14Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Improving Gradient Flow with Unrolled Highway Expectation Maximization [0.9539495585692008]
本稿では,一般化EM (GEM) アルゴリズムの非順序反復からなるハイウェイ予測最大化ネットワーク (HEMNet) を提案する。
HEMNetは、スケールしたスキップ接続、あるいはハイウェイを、非ロールアーキテクチャの深さに沿って備えており、バックプロパゲーション時の勾配フローが改善されている。
複数のセマンティクスセグメンテーションベンチマークにおいて有意な改善を達成し,hemnetが勾配減衰を効果的に緩和することを示す。
論文 参考訳(メタデータ) (2020-12-09T09:11:45Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。