論文の概要: Recurrent Stacking of Layers in Neural Networks: An Application to
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2106.10002v1
- Date: Fri, 18 Jun 2021 08:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 22:38:02.130648
- Title: Recurrent Stacking of Layers in Neural Networks: An Application to
Neural Machine Translation
- Title(参考訳): ニューラルネットワークにおけるレイヤの繰り返し積み重ね:ニューラルマシン翻訳への応用
- Authors: Raj Dabre and Atsushi Fujita
- Abstract要約: 我々は、全ての層にパラメータを共有することで、繰り返し積み重ねられたニューラルネットワークモデルを実現することを提案する。
我々は、パラメータが著しく少ないにもかかわらず、単一のレイヤを6回繰り返し積み重ねるモデルの翻訳品質が、各レイヤが異なるパラメータを持つ6つのレイヤを積み重ねるモデルの翻訳品質にアプローチすることを実証的に示す。
- 参考スコア(独自算出の注目度): 18.782750537161615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In deep neural network modeling, the most common practice is to stack a
number of recurrent, convolutional, or feed-forward layers in order to obtain
high-quality continuous space representations which in turn improves the
quality of the network's prediction. Conventionally, each layer in the stack
has its own parameters which leads to a significant increase in the number of
model parameters. In this paper, we propose to share parameters across all
layers thereby leading to a recurrently stacked neural network model. We report
on an extensive case study on neural machine translation (NMT), where we apply
our proposed method to an encoder-decoder based neural network model, i.e., the
Transformer model, and experiment with three Japanese--English translation
datasets. We empirically demonstrate that the translation quality of a model
that recurrently stacks a single layer 6 times, despite having significantly
fewer parameters, approaches that of a model that stacks 6 layers where each
layer has different parameters. We also explore the limits of recurrent
stacking where we train extremely deep NMT models. This paper also examines the
utility of our recurrently stacked model as a student model through transfer
learning via leveraging pre-trained parameters and knowledge distillation, and
shows that it compensates for the performance drops in translation quality that
the direct training of recurrently stacked model brings. We also show how
transfer learning helps in faster decoding on top of the already reduced number
of parameters due to recurrent stacking. Finally, we analyze the effects of
recurrently stacked layers by visualizing the attentions of models that use
recurrently stacked layers and models that do not.
- Abstract(参考訳): ディープニューラルネットワークモデリングにおいて、最も一般的なプラクティスは、複数の繰り返し、畳み込み、フィードフォワード層を積み重ねて高品質な連続空間表現を得ることであり、それによってネットワークの予測の質が向上する。
従来、スタックの各レイヤは独自のパラメータを持ち、モデルパラメータの数を大幅に増加させる。
本稿では,全ての層にパラメータを共有することで,繰り返し積み重ねられたニューラルネットワークモデルを実現することを提案する。
本稿では,提案手法をエンコーダ・デコーダに基づくニューラルネットワークモデル,すなわちトランスフォーマモデルに適用し,3つの日英翻訳データセットを実験する,ニューラルネットワーク翻訳(nmt)に関する広範なケーススタディについて報告する。
実験により,単一層を反復的にスタックするモデルの翻訳品質は,パラメータが著しく少ないにもかかわらず,各層が異なるパラメータを持つ6層をスタックするモデルにアプローチすることを示す。
また、非常に深いNMTモデルをトレーニングする繰り返し積み重ねの限界についても検討する。
また,本論文では,事前学習したパラメータと知識蒸留を利用して,学生モデルとしての繰り返し積み重ねモデルの有用性を検証し,反復積み重ねモデルの直接訓練がもたらす翻訳品質の低下を補うことを示す。
また、繰り返し積み重ねによるパラメータの減少に加えて、転送学習が高速な復号化にどう役立つかを示す。
最後に,繰り返し積み重ねられたレイヤとそうでないモデルを用いて,モデルの注意を可視化することにより,繰り返し積み重ねられたレイヤの効果を分析する。
関連論文リスト
- Variational autoencoder-based neural network model compression [4.992476489874941]
変分オートエンコーダ(VAE)は、深部生成モデルの一種であり、近年広く使われている。
本稿では,VAEに基づくニューラルネットワークモデル圧縮手法について検討する。
論文 参考訳(メタデータ) (2024-08-25T09:06:22Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。
実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文 参考訳(メタデータ) (2020-10-06T11:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。