論文の概要: Non-Autoregressive Translation with Layer-Wise Prediction and Deep
Supervision
- arxiv url: http://arxiv.org/abs/2110.07515v1
- Date: Thu, 14 Oct 2021 16:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 13:53:05.335891
- Title: Non-Autoregressive Translation with Layer-Wise Prediction and Deep
Supervision
- Title(参考訳): 層幅予測とDeep Supervisionを用いた非自己回帰翻訳
- Authors: Chenyang Huang, Hao Zhou, Osmar R. Za\"iane, Lili Mou, Lei Li
- Abstract要約: Transformerのような既存のニューラルネットワーク翻訳モデルは高い性能を達成するが、単語を1つずつデコードする。
最近の非自己回帰翻訳モデルは推論を高速化するが、その品質は依然として劣っている。
機械翻訳のための高効率かつ高性能なモデルDSLPを提案する。
- 参考スコア(独自算出の注目度): 33.04082398101807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do we perform efficient inference while retaining high translation
quality? Existing neural machine translation models, such as Transformer,
achieve high performance, but they decode words one by one, which is
inefficient. Recent non-autoregressive translation models speed up the
inference, but their quality is still inferior. In this work, we propose DSLP,
a highly efficient and high-performance model for machine translation. The key
insight is to train a non-autoregressive Transformer with Deep Supervision and
feed additional Layer-wise Predictions. We conducted extensive experiments on
four translation tasks (both directions of WMT'14 EN-DE and WMT'16 EN-RO).
Results show that our approach consistently improves the BLEU scores compared
with respective base models. Specifically, our best variant outperforms the
autoregressive model on three translation tasks, while being 14.8 times more
efficient in inference.
- Abstract(参考訳): 高翻訳品質を維持しながら効率的な推論を行うには?
トランスフォーマーなどの既存のニューラルマシン翻訳モデルは、高い性能を実現しているが、単語を1つずつデコードすることは非効率である。
最近の非自己回帰翻訳モデルは推論を高速化するが、その品質は劣っている。
本稿では,機械翻訳のための高効率・高性能モデルであるdslpを提案する。
重要な洞察は、Deep Supervisionで非自己回帰トランスフォーマーをトレーニングし、追加のレイヤワイド予測を提供することだ。
4つの翻訳タスク(wmt'14 en-deとwmt'16 en-ro)について広範な実験を行った。
その結果,各ベースモデルと比較してbleuスコアが一貫して向上することがわかった。
特に、最良の変種は3つの翻訳タスクで自己回帰モデルを上回るが、推論の効率は14.8倍である。
関連論文リスト
- Transformers for Low-Resource Languages:Is F\'eidir Linn! [2.648836772989769]
一般に、ニューラルネットワークモデルは訓練データが不十分な言語ペアで実行されることが多い。
適切なパラメータを選択することで、パフォーマンスが大幅に向上することを示す。
Transformer最適化モデルでは,ベースラインRNNモデルと比較してBLEUスコアが7.8ポイント向上した。
論文 参考訳(メタデータ) (2024-03-04T12:29:59Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Candidate Soups: Fusing Candidate Results Improves Translation Quality
for Non-Autoregressive Translation [15.332496335303189]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルよりもはるかに高速な推論速度を達成する。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
そこで我々は,高品質な翻訳を実現するための,シンプルだが効果的な手法"Candidate Soups"を提案する。
論文 参考訳(メタデータ) (2023-01-27T02:39:42Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine
Translation [78.51887060865273]
単層自己回帰デコーダは、推論速度に匹敵する強い非自己回帰モデルよりも大幅に優れていることを示す。
本研究は,高速かつ高精度な機械翻訳研究のための新しいプロトコルを構築した。
論文 参考訳(メタデータ) (2020-06-18T09:06:49Z) - Multi-layer Representation Fusion for Neural Machine Translation [38.12309528346962]
積層層を融合する多層表現融合(MLRF)手法を提案する。
特に、スタックからより良い表現を学ぶために、3つの融合関数を設計する。
その結果、ドイツ語と英語の翻訳における新たな最先端技術が誕生した。
論文 参考訳(メタデータ) (2020-02-16T23:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。