論文の概要: Neural networks with late-phase weights
- arxiv url: http://arxiv.org/abs/2007.12927v4
- Date: Mon, 11 Apr 2022 13:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:33:25.850088
- Title: Neural networks with late-phase weights
- Title(参考訳): 後期重み付きニューラルネットワーク
- Authors: Johannes von Oswald, Seijin Kobayashi, Alexander Meulemans, Christian
Henning, Benjamin F. Grewe, Jo\~ao Sacramento
- Abstract要約: 学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
- 参考スコア(独自算出の注目度): 66.72777753269658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The largely successful method of training neural networks is to learn their
weights using some variant of stochastic gradient descent (SGD). Here, we show
that the solutions found by SGD can be further improved by ensembling a subset
of the weights in late stages of learning. At the end of learning, we obtain
back a single model by taking a spatial average in weight space. To avoid
incurring increased computational costs, we investigate a family of
low-dimensional late-phase weight models which interact multiplicatively with
the remaining parameters. Our results show that augmenting standard models with
late-phase weights improves generalization in established benchmarks such as
CIFAR-10/100, ImageNet and enwik8. These findings are complemented with a
theoretical analysis of a noisy quadratic problem which provides a simplified
picture of the late phases of neural network learning.
- Abstract(参考訳): ニューラルネットワークをトレーニングする最も成功した方法は、確率勾配降下(SGD)の変種を用いて重みを学習することである。
ここでは,SGDの解は,学習後期に重みのサブセットを組み込むことにより,さらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
計算コストの増大を避けるため,残差パラメータと乗算的に相互作用する低次元遅延位相重みモデル群について検討した。
その結果,標準モデルの後期重み付けによる拡張はcifar-10/100,imagenet,enwik8などの確立されたベンチマークの一般化を改善できることがわかった。
これらの知見は、ニューラルネットワーク学習の後期段階を単純化したノイズ2次問題の理論的解析と相補的である。
関連論文リスト
- Randomized Forward Mode Gradient for Spiking Neural Networks in Scientific Machine Learning [4.178826560825283]
スパイキングニューラルネットワーク(SNN)は、ディープニューラルネットワークの階層的学習能力とスパイクベースの計算のエネルギー効率を組み合わせた、機械学習における有望なアプローチである。
SNNの伝統的なエンドツーエンドトレーニングは、しばしばバックプロパゲーションに基づいており、重み更新はチェーンルールによって計算された勾配から導かれる。
この手法は, 生体適合性に限界があり, ニューロモルフィックハードウェアの非効率性のため, 課題に遭遇する。
本研究では,SNNの代替トレーニング手法を導入する。後方伝搬の代わりに,前方モード内での重量摂動手法を活用する。
論文 参考訳(メタデータ) (2024-11-11T15:20:54Z) - Generative Feature Training of Thin 2-Layer Networks [0.0]
正方形損失と小さなデータセットに基づく隠れ重みの少ない2層ニューラルネットワークによる関数近似を考察する。
高度に隠蔽されたモデルとして、学習された分布提案からのサンプルを用いて隠れ重みを利用する。
潜時空間における勾配に基づく後処理により, 試料重量を改良する。
論文 参考訳(メタデータ) (2024-11-11T10:32:33Z) - HyperSparse Neural Networks: Shifting Exploration to Exploitation
through Adaptive Regularization [18.786142528591355]
スパースニューラルネットワークは、リソース効率のよい機械学習アプリケーションを開発する上で重要な要素である。
本稿では,高密度をスパースネットワークに圧縮する適応正規化学習(ART)を提案する。
本手法は,事前学習したモデル知識を最大級の重みに圧縮する。
論文 参考訳(メタデータ) (2023-08-14T14:18:11Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Inverse-Dirichlet Weighting Enables Reliable Training of Physics
Informed Neural Networks [2.580765958706854]
我々は、深層ニューラルネットワークのトレーニング中に、スケール不均衡を伴うマルチスケールダイナミクスから生じる障害モードを記述し、治療する。
PINNは、物理方程式モデルとデータとのシームレスな統合を可能にする、一般的な機械学習テンプレートである。
逐次トレーニングを用いた逆モデリングでは,逆ディリクレ重み付けがPINNを破滅的忘れから保護することがわかった。
論文 参考訳(メタデータ) (2021-07-02T10:01:37Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。