論文の概要: MSE-Optimal Neural Network Initialization via Layer Fusion
- arxiv url: http://arxiv.org/abs/2001.10509v1
- Date: Tue, 28 Jan 2020 18:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:24:32.424356
- Title: MSE-Optimal Neural Network Initialization via Layer Fusion
- Title(参考訳): 層融合によるMSE最適ニューラルネットワーク初期化
- Authors: Ramina Ghods, Andrew S. Lan, Tom Goldstein, Christoph Studer
- Abstract要約: ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
- 参考スコア(独自算出の注目度): 68.72356718879428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks achieve state-of-the-art performance for a range of
classification and inference tasks. However, the use of stochastic gradient
descent combined with the nonconvexity of the underlying optimization problems
renders parameter learning susceptible to initialization. To address this
issue, a variety of methods that rely on random parameter initialization or
knowledge distillation have been proposed in the past. In this paper, we
propose FuseInit, a novel method to initialize shallower networks by fusing
neighboring layers of deeper networks that are trained with random
initialization. We develop theoretical results and efficient algorithms for
mean-square error (MSE)-optimal fusion of neighboring dense-dense,
convolutional-dense, and convolutional-convolutional layers. We show
experiments for a range of classification and regression datasets, which
suggest that deeper neural networks are less sensitive to initialization and
shallower networks can perform better (sometimes as well as their deeper
counterparts) if initialized with FuseInit.
- Abstract(参考訳): ディープニューラルネットワークは、さまざまな分類と推論タスクで最先端のパフォーマンスを実現する。
しかし、確率勾配勾配と基礎となる最適化問題の非凸性の組み合わせは、初期化の影響を受けやすいパラメータ学習を引き起こす。
この問題に対処するために、ランダムパラメータの初期化や知識蒸留に依存する様々な方法が過去に提案されている。
本稿では,より深いネットワーク層をランダムに初期化して訓練することで,より浅いネットワークを初期化するFuseInitを提案する。
本研究では,隣り合う密閉層,畳み込み層,畳み込み畳み込み層の平均二乗誤差(mse)-最適融合に関する理論的結果と効率的なアルゴリズムを開発した。
分類と回帰データセットの多種にわたる実験を行い,fuseinitで初期化した場合,より深いニューラルネットワークは初期化に対する感度が低く,より浅いネットワークはより良く(時にはより深い値にも)機能することが示唆された。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - SA-CNN: Application to text categorization issues using simulated
annealing-based convolutional neural network optimization [0.0]
畳み込みニューラルネットワーク(CNN)は、ディープラーニングアルゴリズムの代表クラスである。
テキストCNNニューラルネットワークに基づくテキスト分類タスクのためのSA-CNNニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T14:27:34Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Improving the Backpropagation Algorithm with Consequentialism Weight
Updates over Mini-Batches [0.40611352512781856]
適応フィルタのスタックとして多層ニューラルネットワークを考えることが可能であることを示す。
我々は,BPで発生した行動の悪影響を予測し,その発生前にも予測し,よりよいアルゴリズムを導入する。
我々の実験は、ディープニューラルネットワークのトレーニングにおけるアルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2020-03-11T08:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。