論文の概要: Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers
- arxiv url: http://arxiv.org/abs/2102.04697v1
- Date: Tue, 9 Feb 2021 08:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:54:19.720280
- Title: Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers
- Title(参考訳): 最初に分類器を訓練する: カスケードニューラルネットワーク 上層から下層へのトレーニング。
- Authors: Shucong Zhang, Cong-Thanh Do, Rama Doddipatla, Erfan Loweimi, Peter
Bell and Steve Renals
- Abstract要約: 我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
- 参考スコア(独自算出の注目度): 54.47911829539919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the lower layers of a deep neural network learn features which are
transferable across datasets, these layers are not transferable within the same
dataset. That is, in general, freezing the trained feature extractor (the lower
layers) and retraining the classifier (the upper layers) on the same dataset
leads to worse performance. In this paper, for the first time, we show that the
frozen classifier is transferable within the same dataset. We develop a novel
top-down training method which can be viewed as an algorithm for searching for
high-quality classifiers. We tested this method on automatic speech recognition
(ASR) tasks and language modelling tasks. The proposed method consistently
improves recurrent neural network ASR models on Wall Street Journal,
self-attention ASR models on Switchboard, and AWD-LSTM language models on
WikiText-2.
- Abstract(参考訳): ディープニューラルネットワークの下位層はデータセット間で転送可能な機能を学ぶが、これらの層は同じデータセット内では転送できない。
すなわち、トレーニングされた特徴抽出器(下層)を凍結し、同じデータセット上の分類器(上層)を再トレーニングすることで、パフォーマンスが悪化する。
本稿では,凍った分類器が同じデータセット内で転送可能であることを初めて示す。
高品質の分類器を探索するアルゴリズムとして,新しいトップダウン学習法を開発した。
自動音声認識(ASR)タスクと言語モデリングタスクでこの手法をテストした。
提案手法は、Wall Street Journal の繰り返しニューラルネットワーク ASR モデル、Switchboard の自己アテンション ASR モデル、WikiText-2 の AWD-LSTM 言語モデルを一貫して改善する。
関連論文リスト
- NEAR: A Training-Free Pre-Estimator of Machine Learning Model Performance [0.0]
我々は、トレーニングなしで最適なニューラルネットワークを特定するために、アクティベーションランク(NEAR)によるゼロコストプロキシネットワーク表現を提案する。
このネットワークスコアとNAS-Bench-101とNATS-Bench-SSS/TSSのモデル精度の最先端相関を実証した。
論文 参考訳(メタデータ) (2024-08-16T14:38:14Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - Recurrent Stacking of Layers in Neural Networks: An Application to
Neural Machine Translation [18.782750537161615]
我々は、全ての層にパラメータを共有することで、繰り返し積み重ねられたニューラルネットワークモデルを実現することを提案する。
我々は、パラメータが著しく少ないにもかかわらず、単一のレイヤを6回繰り返し積み重ねるモデルの翻訳品質が、各レイヤが異なるパラメータを持つ6つのレイヤを積み重ねるモデルの翻訳品質にアプローチすることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-18T08:48:01Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Collaborative Method for Incremental Learning on Classification and
Generation [32.07222897378187]
本稿では,ニューラルネットワークを用いたインクリメンタルなクラス学習のための新しいアルゴリズム,Incrmental Class Learning with Attribute Sharing (ICLAS)を導入する。
そのコンポーネントの1つであるincGANは、トレーニングデータよりも多彩な画像を生成することができる。
データ不足の困難な環境下で、ICLASは段階的に分類と生成ネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-29T06:34:53Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - An Effective and Efficient Initialization Scheme for Training
Multi-layer Feedforward Neural Networks [5.161531917413708]
本稿では,有名なスタインの身元に基づく新しいネットワーク初期化手法を提案する。
提案したSteinGLM法は、ニューラルネットワークのトレーニングによく使われる他の一般的な手法よりもはるかに高速で高精度であることを示す。
論文 参考訳(メタデータ) (2020-05-16T16:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。