論文の概要: Joint-training on Symbiosis Networks for Deep Nueral Machine Translation
models
- arxiv url: http://arxiv.org/abs/2112.11642v1
- Date: Wed, 22 Dec 2021 03:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 14:36:34.982040
- Title: Joint-training on Symbiosis Networks for Deep Nueral Machine Translation
models
- Title(参考訳): 深層機械翻訳モデルのための共生ネットワークの合同学習
- Authors: Zhengzhe Yu, Jiaxin Guo, Minghan Wang, Daimeng Wei, Hengchao Shang,
Zongyao Li, Zhanglin Wu, Yuxia Wang, Yimeng Chen, Chang Su, Min Zhang, Lizhi
Lei, shimin tao and Hao Yang
- Abstract要約: The Symbiosis Networks, which includes a full network as the Symbiosis Main Network (M-Net) and another shared sub-network with the same structure but less layer as the Symbiotic Sub Network (S-Net)。
我々はTransformer-deep (m-n)アーキテクチャ上のSymbiosis Networksを採用し、NMTにおけるM-NetとS-Netの間の特定の正規化損失を定義する。
We proposed training strategy improves Transformer-deep (12-6) by 0.61, 0.49, 0.69 BLEU over the baseline under classic training on WMT'14 EN->DE, DE->EN
- 参考スコア(独自算出の注目度): 13.527174969073073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep encoders have been proven to be effective in improving neural machine
translation (NMT) systems, but it reaches the upper bound of translation
quality when the number of encoder layers exceeds 18. Worse still, deeper
networks consume a lot of memory, making it impossible to train efficiently. In
this paper, we present Symbiosis Networks, which include a full network as the
Symbiosis Main Network (M-Net) and another shared sub-network with the same
structure but less layers as the Symbiotic Sub Network (S-Net). We adopt
Symbiosis Networks on Transformer-deep (m-n) architecture and define a
particular regularization loss $\mathcal{L}_{\tau}$ between the M-Net and S-Net
in NMT. We apply joint-training on the Symbiosis Networks and aim to improve
the M-Net performance. Our proposed training strategy improves Transformer-deep
(12-6) by 0.61, 0.49 and 0.69 BLEU over the baselines under classic training on
WMT'14 EN->DE, DE->EN and EN->FR tasks. Furthermore, our Transformer-deep
(12-6) even outperforms classic Transformer-deep (18-6).
- Abstract(参考訳): ディープエンコーダは、ニューラルマシン翻訳(nmt)システムの改善に有効であることが証明されているが、エンコーダ層数が18を超えると翻訳品質の上限に達する。
さらに悪いことに、深いネットワークは大量のメモリを消費し、効率的にトレーニングすることは不可能である。
本稿では,共生メインネットワーク(M-Net)としての完全なネットワークと,共生サブネットワーク(S-Net)と同じ構造を持つ共有サブネットワークを含む共生サブネットワークを提案する。
我々はTransformer-deep (m-n) アーキテクチャ上の共生ネットワークを採用し、NMT の M-Net と S-Net の間の特定の正規化損失 $\mathcal{L}_{\tau}$ を定義する。
The Symbiosis Networks に共同学習を適用し,M-Net の性能向上を目指す。
提案手法は,wmt'14 en->de,de->en,en->frタスクにおいて,基本値に対して0.61,0.49,0.69 bleu向上する。
さらに、Transformer-deep(12-6)は、従来のTransformer-deep (18-6)よりも優れています。
関連論文リスト
- Forget-free Continual Learning with Soft-Winning SubNetworks [67.0373924836107]
本稿では,各タスクに対して適応バイナリ(WSN)と非バイナリサブネット(SoftNet)を逐次学習し,選択する2つの連続学習手法について検討する。
WSNとSoftNetは、各タスクに関連する作業の正規化モデルウェイトとタスク適応非バイナリマスクを共同で学習する。
タスクインクリメンタルラーニング(TIL)では、当選チケット毎に生成されるバイナリマスクを1つのNビットのバイナリディジットマスクにエンコードし、ハフマン符号化を用いてタスク数に対するネットワーク容量のサブ線形増加のために圧縮する。
論文 参考訳(メタデータ) (2023-03-27T07:53:23Z) - Trainability Preserving Neural Structured Pruning [64.65659982877891]
本稿では,正規化型構造化プルーニング法であるTPP(Traiability Preserving pruning)を提案する。
TPPは線形ネットワーク上での地中動力学的等尺性回復法と競合する。
多くのトップパフォーマンスのフィルタプルーニング手法と比較して、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-07-25T21:15:47Z) - Embedded Knowledge Distillation in Depth-level Dynamic Neural Network [8.207403859762044]
類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。
本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。
CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-01T06:35:31Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - Attention is All You Need in Speech Separation [12.57578429586883]
音声分離のための新しいRNNフリートランスフォーマーベースニューラルネットワークを提案する。
提案モデルは標準的なWSJ0-2/3mixデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2020-10-25T16:28:54Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Transformer with Depth-Wise LSTM [69.40942736249397]
Transformer翻訳モデルは、その収束を保証するために残差接続を使用する。
本稿では,階層の出力を時系列のステップとみなす深度ワイドLSTMを用いてトランスフォーマーを訓練することを提案する。
6層トランスを用いた実験により,WMT 14の英語-ドイツ語と英語-フランス語の両タスクにおいて,BLEUの大幅な改善がもたらされることが示された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z) - Multiscale Collaborative Deep Models for Neural Machine Translation [40.52423993051359]
従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-04-29T08:36:08Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。