論文の概要: Multi-layer Representation Fusion for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2002.06714v1
- Date: Sun, 16 Feb 2020 23:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 18:07:04.130222
- Title: Multi-layer Representation Fusion for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための多層表現融合
- Authors: Qiang Wang, Fuxue Li, Tong Xiao, Yanyang Li, Yinqiao Li, Jingbo Zhu
- Abstract要約: 積層層を融合する多層表現融合(MLRF)手法を提案する。
特に、スタックからより良い表現を学ぶために、3つの融合関数を設計する。
その結果、ドイツ語と英語の翻訳における新たな最先端技術が誕生した。
- 参考スコア(独自算出の注目度): 38.12309528346962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation systems require a number of stacked layers for
deep models. But the prediction depends on the sentence representation of the
top-most layer with no access to low-level representations. This makes it more
difficult to train the model and poses a risk of information loss to
prediction. In this paper, we propose a multi-layer representation fusion
(MLRF) approach to fusing stacked layers. In particular, we design three fusion
functions to learn a better representation from the stack. Experimental results
show that our approach yields improvements of 0.92 and 0.56 BLEU points over
the strong Transformer baseline on IWSLT German-English and NIST
Chinese-English MT tasks respectively. The result is new state-of-the-art in
German-English translation.
- Abstract(参考訳): ニューラルマシン翻訳システムは、深層モデルのために多数のスタック層を必要とする。
しかし、予測は最上位層の文表現に依存し、低レベルの表現にアクセスできない。
これにより、モデルをトレーニングすることが難しくなり、予測に情報損失のリスクが生じる。
本稿では,積層層を融合させる多層表現融合(MLRF)手法を提案する。
特に、スタックからより良い表現を学ぶために、3つの融合関数を設計する。
IWSLTドイツ語とNIST中国語のMTタスクの強いトランスフォーマーベースラインに対して,本手法では0.92点と0.56点の改善が得られた。
その結果、ドイツ語と英語の翻訳における新たな最先端技術が誕生した。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Residual Tree Aggregation of Layers for Neural Machine Translation [11.660776324473645]
本稿では,トランスフォーマー (RTAL) のための残木集約手法を提案する。
具体的には、ポストオーダーのバイナリツリーを構築することで、レイヤ間で情報を融合させようとする。
我々のモデルはニューラルマシン翻訳モデルトランスフォーマーに基づいており、WMT14英語-ドイツ語とWMT17英語--フランス語翻訳タスクの実験を行っている。
論文 参考訳(メタデータ) (2021-07-19T09:32:10Z) - Recurrent Stacking of Layers in Neural Networks: An Application to
Neural Machine Translation [18.782750537161615]
我々は、全ての層にパラメータを共有することで、繰り返し積み重ねられたニューラルネットワークモデルを実現することを提案する。
我々は、パラメータが著しく少ないにもかかわらず、単一のレイヤを6回繰り返し積み重ねるモデルの翻訳品質が、各レイヤが異なるパラメータを持つ6つのレイヤを積み重ねるモデルの翻訳品質にアプローチすることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-18T08:48:01Z) - Deep Transformers with Latent Depth [42.33955275626127]
Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
多言語機械翻訳のための1つの共有トランスフォーマーネットワークを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T07:13:23Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Multiscale Collaborative Deep Models for Neural Machine Translation [40.52423993051359]
従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-04-29T08:36:08Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。