論文の概要: Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization
- arxiv url: http://arxiv.org/abs/2208.01134v1
- Date: Mon, 1 Aug 2022 20:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:26:58.633013
- Title: Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization
- Title(参考訳): 階層的バッチエントロピー正規化によるディープニューラルネットワークのトレーサビリティ向上
- Authors: David Peer, Bart Keulen, Sebastian Stabinger, Justus Piater, Antonio
Rodr\'iguez-S\'anchez
- Abstract要約: ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
- 参考スコア(独自算出の注目度): 1.3999481573773072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training deep neural networks is a very demanding task, especially
challenging is how to adapt architectures to improve the performance of trained
models. We can find that sometimes, shallow networks generalize better than
deep networks, and the addition of more layers results in higher training and
test errors. The deep residual learning framework addresses this degradation
problem by adding skip connections to several neural network layers. It would
at first seem counter-intuitive that such skip connections are needed to train
deep networks successfully as the expressivity of a network would grow
exponentially with depth. In this paper, we first analyze the flow of
information through neural networks. We introduce and evaluate the
batch-entropy which quantifies the flow of information through each layer of a
neural network. We prove empirically and theoretically that a positive
batch-entropy is required for gradient descent-based training approaches to
optimize a given loss function successfully. Based on those insights, we
introduce batch-entropy regularization to enable gradient descent-based
training algorithms to optimize the flow of information through each hidden
layer individually. With batch-entropy regularization, gradient descent
optimizers can transform untrainable networks into trainable networks. We show
empirically that we can therefore train a "vanilla" fully connected network and
convolutional neural network -- no skip connections, batch normalization,
dropout, or any other architectural tweak -- with 500 layers by simply adding
the batch-entropy regularization term to the loss function. The effect of
batch-entropy regularization is not only evaluated on vanilla neural networks,
but also on residual networks, autoencoders, and also transformer models over a
wide range of computer vision as well as natural language processing tasks.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングは非常に要求の多い作業であり、特に難しいのは、アーキテクチャを適用してトレーニングされたモデルのパフォーマンスを改善する方法だ。
時々、浅いネットワークはディープネットワークよりも一般化し、より多くのレイヤを追加することで、より高いトレーニングとテストエラーが発生することが分かる。
ディープ残差学習フレームワークは、いくつかのニューラルネットワーク層にスキップ接続を追加することで、この劣化問題を解決する。
ネットワークの表現性が指数関数的に高まるにつれ、ディープネットワークのトレーニングにこのようなスキップ接続が必要となるのは、当初は直観に反するように思える。
本稿では,まずニューラルネットワークを用いて情報の流れを分析する。
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
勾配降下に基づく学習手法では,与えられた損失関数の最適化に正のバッチエントロピーが必要であることを実証的,理論的に証明する。
これらの知見に基づいて,各隠れ層間の情報の流れを個別に最適化する勾配降下型学習アルゴリズムを実現するために,バッチエントロピー正規化を導入する。
バッチエントロピー正規化により、勾配降下最適化器はトレーニング不能ネットワークをトレーニング可能なネットワークに変換することができる。
従って私たちは,損失関数にバッチエントロピー正規化項を単に追加するだけで,スキップ接続やバッチ正規化,ドロップアウト,その他のアーキテクチャ上の変更が不要な,“バニラ”完全接続ネットワークと畳み込みニューラルネットワークを500層でトレーニングできることを実証的に示しています。
バッチエントロピー正規化の効果は、バニラニューラルネットワークだけでなく、残余ネットワーク、オートエンコーダ、および幅広いコンピュータビジョンおよび自然言語処理タスクにおけるトランスフォーマーモデルにも評価されている。
関連論文リスト
- Sensitivity-Based Layer Insertion for Residual and Feedforward Neural
Networks [0.3831327965422187]
ニューラルネットワークのトレーニングには、面倒でしばしば手動でネットワークアーキテクチャをチューニングする必要がある。
トレーニングプロセス中に新しいレイヤを挿入する体系的手法を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:44:13Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Predify: Augmenting deep neural networks with brain-inspired predictive
coding dynamics [0.5284812806199193]
我々は神経科学の一般的な枠組みからインスピレーションを得た:「予測コーディング」
本稿では、この戦略をVGG16とEfficientNetB0という2つの人気ネットワークに実装することで、様々な汚職に対する堅牢性を向上させることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:48:13Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Bayesian Nested Neural Networks for Uncertainty Calibration and Adaptive
Compression [40.35734017517066]
ネストネットワーク(Nested Network)またはスリムブルネットワーク(Slimmable Network)は、テスト期間中にアーキテクチャを即座に調整できるニューラルネットワークである。
最近の研究は、トレーニング中に重要なレイヤのノードを順序付けできる"ネストされたドロップアウト"層に焦点を当てている。
論文 参考訳(メタデータ) (2021-01-27T12:34:58Z) - Implicit recurrent networks: A novel approach to stationary input
processing with recurrent neural networks in deep learning [0.0]
本研究では,ニューラルネットの新たな実装を深層学習に導入し,検証する。
繰り返しネットワークの暗黙的な実装にバックプロパゲーションアルゴリズムを実装するアルゴリズムを提案する。
シングルレイヤの暗黙的リカレントネットワークはXOR問題を解くことができ、一方、単調に活性化関数が増加するフィードフォワードネットワークは、このタスクで失敗する。
論文 参考訳(メタデータ) (2020-10-20T18:55:32Z) - Compressive sensing with un-trained neural networks: Gradient descent
finds the smoothest approximation [60.80172153614544]
訓練されていない畳み込みニューラルネットワークは、画像の回復と復元に非常に成功したツールとして登場した。
トレーニングされていない畳み込みニューラルネットワークは、ほぼ最小限のランダムな測定値から、十分に構造化された信号や画像を概ね再構成可能であることを示す。
論文 参考訳(メタデータ) (2020-05-07T15:57:25Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - A Deep Conditioning Treatment of Neural Networks [37.192369308257504]
本研究では,入力データの特定のカーネル行列の条件付けを改善することにより,ニューラルネットワークのトレーニング性を向上させることを示す。
ニューラルネットワークの上位層のみのトレーニングと、ニューラルネットワークのタンジェントカーネルを通じてすべてのレイヤをトレーニングするための学習を行うためのバージョンを提供しています。
論文 参考訳(メタデータ) (2020-02-04T20:21:36Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。