論文の概要: Cooperative Initialization based Deep Neural Network Training
- arxiv url: http://arxiv.org/abs/2001.01240v1
- Date: Sun, 5 Jan 2020 14:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 07:32:54.142325
- Title: Cooperative Initialization based Deep Neural Network Training
- Title(参考訳): 協調初期化に基づくディープニューラルネットワークトレーニング
- Authors: Pravendra Singh, Munender Varshney, Vinay P. Namboodiri
- Abstract要約: 本手法では,ネットワークのトレーニング中に,全ての重みパラメータの更新に複数のアクティベーション関数を用いる。
提案手法は,様々なベースラインに優れ,同時に分類や検出など,さまざまなタスクに対して優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 35.14235994478142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have proposed various activation functions. These activation
functions help the deep network to learn non-linear behavior with a significant
effect on training dynamics and task performance. The performance of these
activations also depends on the initial state of the weight parameters, i.e.,
different initial state leads to a difference in the performance of a network.
In this paper, we have proposed a cooperative initialization for training the
deep network using ReLU activation function to improve the network performance.
Our approach uses multiple activation functions in the initial few epochs for
the update of all sets of weight parameters while training the network. These
activation functions cooperate to overcome their drawbacks in the update of
weight parameters, which in effect learn better "feature representation" and
boost the network performance later. Cooperative initialization based training
also helps in reducing the overfitting problem and does not increase the number
of parameters, inference (test) time in the final model while improving the
performance. Experiments show that our approach outperforms various baselines
and, at the same time, performs well over various tasks such as classification
and detection. The Top-1 classification accuracy of the model trained using our
approach improves by 2.8% for VGG-16 and 2.1% for ResNet-56 on CIFAR-100
dataset.
- Abstract(参考訳): 研究者は様々な活性化機能を提案した。
これらの活性化関数は、ディープネットワークがトレーニングダイナミクスとタスクパフォーマンスに大きな影響を与える非線形動作を学ぶのに役立つ。
これらのアクティベーションのパフォーマンスは、ウェイトパラメータの初期状態、すなわち、異なる初期状態がネットワークのパフォーマンスに違いをもたらすことにも依存する。
本稿では,ReLUアクティベーション機能を用いてネットワーク性能を向上させるディープネットワークをトレーニングするための協調初期化を提案する。
本手法では,ネットワークのトレーニング中に,全ての重みパラメータの更新に複数のアクティベーション関数を用いる。
これらの活性化関数は、重みパラメータの更新における欠点を克服するために協力し、事実上より優れた「特徴表現」を学び、後にネットワーク性能を向上させる。
協調初期化に基づくトレーニングは、オーバーフィッティング問題を軽減し、最終モデルにおけるパラメータの数、推論(テスト)時間を増やすことなく、性能を改善します。
実験の結果,本手法は様々なベースラインよりも優れており,同時に分類や検出といった様々なタスクにも優れていた。
CIFAR-100データセットでは,VGG-16では2.8%,ResNet-56では2.1%向上した。
関連論文リスト
- Effect of Choosing Loss Function when Using T-batching for
Representation Learning on Dynamic Networks [0.0]
Tバッチは動的ネットワークモデルをトレーニングする上で貴重なテクニックである。
t-batchingで使用する訓練損失関数の制限について検討した。
これらの問題を克服する2つの代替損失関数を提案し、結果としてトレーニング性能が向上する。
論文 参考訳(メタデータ) (2023-08-13T23:34:36Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Improving Classification Neural Networks by using Absolute activation
function (MNIST/LeNET-5 example) [0.0]
ディープネットワークでは絶対的活性化は消滅や爆発的な勾配を引き起こしないため、絶対的活性化は単純なニューラルネットワークとディープニューラルネットワークの両方で使用できる。
Absolute アクティベーションに基づく LeNet のようなアーキテクチャで MNIST 問題を解くことで,予測精度を向上させることにより,ニューラルネットワーク内のトレーニングパラメータの数を著しく削減できることが示されている。
論文 参考訳(メタデータ) (2023-04-23T22:17:58Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - PEA: Improving the Performance of ReLU Networks for Free by Using
Progressive Ensemble Activations [0.0]
ニューラルネットワークの性能を改善するために、新しい活性化関数が提案されている。
本稿では,ReLUネットワークの性能向上に有効な手法を提案する。
論文 参考訳(メタデータ) (2022-07-28T13:29:07Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - CondenseNet V2: Sparse Feature Reactivation for Deep Networks [87.38447745642479]
高密度接続によるディープネットワークの機能再利用は、高い計算効率を達成する効果的な方法である。
スパース機能再活性化(SFR)と呼ばれる代替アプローチを提案し、再利用機能の有用性を積極的に高めることを目指しています。
提案手法は画像分類(ImageNet, CIFAR)とオブジェクト検出(MSCOCO)において,理論的効率と実用的速度の両面で有望な性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-04-09T14:12:43Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Dynamic R-CNN: Towards High Quality Object Detection via Dynamic
Training [70.2914594796002]
ラベル割り当て基準と回帰損失関数の形状を調整するための動的R-CNNを提案する。
我々はResNet-50-FPNベースラインを1.9%のAPと5.5%のAP$_90$で改善し、余分なオーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-04-13T15:20:25Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。