論文の概要: GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2207.14467v1
- Date: Fri, 29 Jul 2022 04:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:20:58.808890
- Title: GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation
- Title(参考訳): gtrans: ニューラルマシン翻訳のためのグルーピングとfusingトランスフォーマー層
- Authors: Jian Yang, Yuwei Yin, Shuming Ma, Haoyang Huang, Dongdong Zhang, Furu
Wei and Zhoujun Li
- Abstract要約: トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 107.2752114891855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer structure, stacked by a sequence of encoder and decoder network
layers, achieves significant development in neural machine translation.
However, vanilla Transformer mainly exploits the top-layer representation,
assuming the lower layers provide trivial or redundant information and thus
ignoring the bottom-layer feature that is potentially valuable. In this work,
we propose the Group-Transformer model (GTrans) that flexibly divides
multi-layer representations of both encoder and decoder into different groups
and then fuses these group features to generate target words. To corroborate
the effectiveness of the proposed method, extensive experiments and analytic
experiments are conducted on three bilingual translation benchmarks and two
multilingual translation tasks, including the IWLST-14, IWLST-17, LDC, WMT-14
and OPUS-100 benchmark. Experimental and analytical results demonstrate that
our model outperforms its Transformer counterparts by a consistent gain.
Furthermore, it can be successfully scaled up to 60 encoder layers and 36
decoder layers.
- Abstract(参考訳): トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
しかしながら、バニラトランスフォーマーは、下層が自明または冗長な情報を提供し、潜在的に価値のある下層機能を無視していると仮定して、主にトップ層表現を利用する。
本稿では、エンコーダとデコーダの両方の多層表現を異なるグループに柔軟に分割し、これらのグループ特徴を融合して対象単語を生成するグループ変換モデル(gtrans)を提案する。
IWLST-14, IWLST-17, LDC, WMT-14, OPUS-100の3つのバイリンガル翻訳ベンチマークと2つの多言語翻訳タスクについて, 広範囲にわたる実験と解析実験を行った。
実験および解析の結果,本モデルが変圧器モデルよりも一貫したゲインで優れていることがわかった。
さらに、60のエンコーダ層と36のデコーダ層をうまくスケールすることができる。
関連論文リスト
- Quick Back-Translation for Unsupervised Machine Translation [9.51657235413336]
我々は Transformer back-translation: Quick Back-translation (QBT) に対する2対1の改善を提案する。
QBTは、エンコーダを生成モデルとして再使用し、エンコーダ生成シーケンスを使用してデコーダを訓練する。
様々なWMTベンチマーク実験により、QBTはトレーニング効率の点で標準逆翻訳法よりも劇的に優れていることが示された。
論文 参考訳(メタデータ) (2023-12-01T20:27:42Z) - Transformer over Pre-trained Transformer for Neural Text Segmentation
with Enhanced Topic Coherence [6.73258176462356]
それは、事前訓練されたトランスフォーマーを用いたボトムレベル文エンコーダと、文埋め込みに基づく上位レベルのトランスフォーマーベースのセグメンテーションモデルである。
実験の結果、Transformer$2$は、一般的に使われているセマンティックコヒーレンス尺度によって、最先端のテキストセグメンテーションモデルを超えていることがわかった。
論文 参考訳(メタデータ) (2021-10-14T05:26:39Z) - Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文 参考訳(メタデータ) (2020-10-21T03:41:49Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - Probing Word Translations in the Transformer and Trading Decoder for
Encoder Layers [69.40942736249397]
トランスフォーマー層における単語の翻訳方法はまだ研究されていない。
翻訳はすでにエンコーダ層や入力埋め込みでも徐々に行われています。
実験の結果,翻訳品質が低い2.3までの速度向上が可能であり,さらに18-4のディープエンコーダ構成では翻訳品質が1.42BLEU(En-De)の速度アップで+1.42BLEU(En-De)向上することがわかった。
論文 参考訳(メタデータ) (2020-03-21T06:12:14Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。