論文の概要: Multi-Unit Transformers for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.10743v2
- Date: Fri, 23 Oct 2020 11:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:42:07.818710
- Title: Multi-Unit Transformers for Neural Machine Translation
- Title(参考訳): ニューラルマシン変換用マルチユニットトランスフォーマー
- Authors: Jianhao Yan, Fandong Meng, Jie Zhou
- Abstract要約: マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
- 参考スコア(独自算出の注目度): 51.418245676894465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models achieve remarkable success in Neural Machine Translation.
Many efforts have been devoted to deepening the Transformer by stacking several
units (i.e., a combination of Multihead Attentions and FFN) in a cascade, while
the investigation over multiple parallel units draws little attention. In this
paper, we propose the Multi-Unit Transformers (MUTE), which aim to promote the
expressiveness of the Transformer by introducing diverse and complementary
units. Specifically, we use several parallel units and show that modeling with
multiple units improves model performance and introduces diversity. Further, to
better leverage the advantage of the multi-unit setting, we design biased
module and sequential dependency that guide and encourage complementariness
among different units. Experimental results on three machine translation tasks,
the NIST Chinese-to-English, WMT'14 English-to-German and WMT'18
Chinese-to-English, show that the MUTE models significantly outperform the
Transformer-Base, by up to +1.52, +1.90 and +1.10 BLEU points, with only a mild
drop in inference speed (about 3.1%). In addition, our methods also surpass the
Transformer-Big model, with only 54\% of its parameters. These results
demonstrate the effectiveness of the MUTE, as well as its efficiency in both
the inference process and parameter usage.
- Abstract(参考訳): トランスフォーマーモデルはニューラルマシン翻訳において顕著な成功を収めた。
トランスフォーマーの強化には、複数のユニット(すなわちマルチヘッド注意とFFNの組み合わせ)をカスケードに積み重ねることに多くの努力が注がれているが、複数の並列ユニットに関する調査はほとんど注目されていない。
本稿では,多様かつ相補的なユニットを導入してトランスフォーマーの表現性を促進することを目的としたMulti-Unit Transformers (MUTE)を提案する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデルパフォーマンスを改善し、多様性をもたらすことを示す。
さらに,マルチユニット設定の利点をうまく活用するために,バイアスモジュールとシーケンシャル依存性をデザインし,異なるユニット間の相補性を誘導し,促進する。
NIST Chinese-to- English、WMT'14 English-to-German、WMT'18 Chinese-to- Englishという3つの機械翻訳タスクの実験結果から、MUTEモデルはTransformer-Baseを最大で1.52, +1.90, +1.10 BLEU点まで大きく上回り、推論速度はわずかに低下している(約3.1%)。
さらに、我々の手法はトランスフォーマー・ビッグモデルを超え、パラメータの54倍しかありません。
これらの結果は,MUTEの有効性と,推論プロセスとパラメータ利用の両面での有効性を示す。
関連論文リスト
- Multimodal Transformer With a Low-Computational-Cost Guarantee [14.852842445363505]
Low-Cost Multimodal Transformer (LoCoMT) は、トレーニング中の計算コストを低減し、性能損失を最小限に抑えることを目的とした、新しいマルチモーダルアテンション機構である。
LoCoMTは柔軟にマルチモーダル信号を制御でき、理論上既存のマルチモーダルトランスフォーマーの変種と比較して計算コストを削減できる。
論文 参考訳(メタデータ) (2024-02-23T05:09:35Z) - Heterogeneous Encoders Scaling In The Transformer For Neural Machine
Translation [47.82947878753809]
ヘテロジニアス手法の統合の有効性について検討する。
単純な組み合わせ戦略と性能駆動型シナジー基準に基づいて,マルチエンコーダ変換器を設計した。
その結果,提案手法は,さまざまな言語やデータセットサイズにまたがる翻訳の質を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-12-26T03:39:08Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Multi-Path Transformer is Better: A Case Study on Neural Machine
Translation [35.67070351304121]
パラメータ効率のよいマルチパス構造を用いて,モデル幅がトランスフォーマーモデルに与える影響について検討した。
12のWMT機械翻訳タスクの実験では、同じ数のパラメータで、より浅いマルチパスモデルが、より深いモデルよりも類似またはより優れた性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-10T07:39:57Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Hierarchical Transformers Are More Efficient Language Models [19.061388006885686]
トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。
注目すべきは、Transformerは長いシーケンスを処理でき、長いコヒーレントな出力を生成することができることだ。
我々は、長いシーケンスを効率的に処理するトランスフォーマーの鍵は、明示的な階層アーキテクチャを持つことにあると仮定する。
論文 参考訳(メタデータ) (2021-10-26T14:00:49Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。