Fugu-MT 論文翻訳(概要): Joint-training on Symbiosis Networks for Deep Nueral Machine Translation models

論文の概要: Joint-training on Symbiosis Networks for Deep Nueral Machine Translation models

arxiv url: http://arxiv.org/abs/2112.11642v1
Date: Wed, 22 Dec 2021 03:13:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-23 14:36:34.982040
Title: Joint-training on Symbiosis Networks for Deep Nueral Machine Translation models
Title（参考訳）: 深層機械翻訳モデルのための共生ネットワークの合同学習
Authors: Zhengzhe Yu, Jiaxin Guo, Minghan Wang, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhanglin Wu, Yuxia Wang, Yimeng Chen, Chang Su, Min Zhang, Lizhi Lei, shimin tao and Hao Yang
Abstract要約: The Symbiosis Networks, which includes a full network as the Symbiosis Main Network (M-Net) and another shared sub-network with the same structure but less layer as the Symbiotic Sub Network (S-Net)。我々はTransformer-deep (m-n)アーキテクチャ上のSymbiosis Networksを採用し、NMTにおけるM-NetとS-Netの間の特定の正規化損失を定義する。 We proposed training strategy improves Transformer-deep (12-6) by 0.61, 0.49, 0.69 BLEU over the baseline under classic training on WMT'14 EN->DE, DE->EN
参考スコア（独自算出の注目度）: 13.527174969073073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep encoders have been proven to be effective in improving neural machine translation (NMT) systems, but it reaches the upper bound of translation quality when the number of encoder layers exceeds 18. Worse still, deeper networks consume a lot of memory, making it impossible to train efficiently. In this paper, we present Symbiosis Networks, which include a full network as the Symbiosis Main Network (M-Net) and another shared sub-network with the same structure but less layers as the Symbiotic Sub Network (S-Net). We adopt Symbiosis Networks on Transformer-deep (m-n) architecture and define a particular regularization loss $\mathcal{L}_{\tau}$ between the M-Net and S-Net in NMT. We apply joint-training on the Symbiosis Networks and aim to improve the M-Net performance. Our proposed training strategy improves Transformer-deep (12-6) by 0.61, 0.49 and 0.69 BLEU over the baselines under classic training on WMT'14 EN->DE, DE->EN and EN->FR tasks. Furthermore, our Transformer-deep (12-6) even outperforms classic Transformer-deep (18-6).
Abstract（参考訳）: ディープエンコーダは、ニューラルマシン翻訳(nmt)システムの改善に有効であることが証明されているが、エンコーダ層数が18を超えると翻訳品質の上限に達する。さらに悪いことに、深いネットワークは大量のメモリを消費し、効率的にトレーニングすることは不可能である。本稿では,共生メインネットワーク(M-Net)としての完全なネットワークと,共生サブネットワーク(S-Net)と同じ構造を持つ共有サブネットワークを含む共生サブネットワークを提案する。我々はTransformer-deep (m-n) アーキテクチャ上の共生ネットワークを採用し、NMT の M-Net と S-Net の間の特定の正規化損失 $\mathcal{L}_{\tau}$ を定義する。 The Symbiosis Networks に共同学習を適用し,M-Net の性能向上を目指す。提案手法は,wmt'14 en->de,de->en,en->frタスクにおいて,基本値に対して0.61,0.49,0.69 bleu向上する。さらに、Transformer-deep(12-6)は、従来のTransformer-deep (18-6)よりも優れています。

関連論文リスト

Multiscale Tensor Summation Factorization as a New Neural Network Layer (MTS Layer) for Multidimensional Data Processing [18.557169937152967]
Multiscale Summation (MTS) Factorizationは、テンソル和を複数スケールで実装した新しいニューラルネットワーク演算子である。 MTSは、重量最適化の効率を高めながら必要となるパラメータ数を減少させるだけでなく、畳み込み層よりも明確な利点を示す。対応するニューラルネットワークであるMTSNetは、さまざまなコンピュータビジョンアプリケーションにおける最先端のトランスフォーマーと比較して、より好ましい複雑性とパフォーマンスのトレードオフを示す。
論文参考訳（メタデータ） (2025-04-17T22:19:59Z)
Ghost-Connect Net: A Generalization-Enhanced Guidance For Sparse Deep Networks Under Distribution Shifts [5.524804393257921]
本稿では,Ghost Connect-Net(GC-Net)を導入し,分散一般化によるネットワーク接続の監視を行う。 GC-Netをプルーニングした後、プルーニングされた場所はプルーニングされた接続として元のネットワークにマップされる。本稿では,GC-Netの分散シフト下での一般化向上のための理論的基盤を提供する。
論文参考訳（メタデータ） (2024-11-14T05:43:42Z)
Stitching for Neuroevolution: Recombining Deep Neural Networks without Breaking Them [0.0]
神経進化への伝統的なアプローチは、しばしばゼロから始まる。アーキテクチャと特徴表現が典型的に異なるため、トレーニングされたネットワークの再結合は簡単ではない。我々は、クロスオーバーポイントで新しいレイヤを導入することで、ネットワークをマージするステアリングを採用しています。
論文参考訳（メタデータ） (2024-03-21T08:30:44Z)
Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。 MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文参考訳（メタデータ） (2023-06-21T16:52:20Z)
Forget-free Continual Learning with Soft-Winning SubNetworks [67.0373924836107]
本稿では,各タスクに対して適応バイナリ(WSN)と非バイナリサブネット(SoftNet)を逐次学習し,選択する2つの連続学習手法について検討する。 WSNとSoftNetは、各タスクに関連する作業の正規化モデルウェイトとタスク適応非バイナリマスクを共同で学習する。タスクインクリメンタルラーニング(TIL)では、当選チケット毎に生成されるバイナリマスクを1つのNビットのバイナリディジットマスクにエンコードし、ハフマン符号化を用いてタスク数に対するネットワーク容量のサブ線形増加のために圧縮する。
論文参考訳（メタデータ） (2023-03-27T07:53:23Z)
Trainability Preserving Neural Structured Pruning [64.65659982877891]
本稿では,正規化型構造化プルーニング法であるTPP(Traiability Preserving pruning)を提案する。 TPPは線形ネットワーク上での地中動力学的等尺性回復法と競合する。多くのトップパフォーマンスのフィルタプルーニング手法と比較して、優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2022-07-25T21:15:47Z)
Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文参考訳（メタデータ） (2021-06-02T18:09:11Z)
MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。 MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文参考訳（メタデータ） (2020-11-24T18:59:39Z)
ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。 ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文参考訳（メタデータ） (2020-10-24T05:09:14Z)
Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文参考訳（メタデータ） (2020-07-01T23:34:35Z)
Multiscale Collaborative Deep Models for Neural Machine Translation [40.52423993051359]
従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2020-04-29T08:36:08Z)
Dynamic Hierarchical Mimicking Towards Consistent Optimization Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。 DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文参考訳（メタデータ） (2020-03-24T09:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。