論文の概要: DePA: Improving Non-autoregressive Machine Translation with
Dependency-Aware Decoder
- arxiv url: http://arxiv.org/abs/2203.16266v2
- Date: Wed, 2 Aug 2023 06:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 18:34:21.677603
- Title: DePA: Improving Non-autoregressive Machine Translation with
Dependency-Aware Decoder
- Title(参考訳): DePA: 依存性認識デコーダによる非自己回帰機械翻訳の改善
- Authors: Jiaao Zhan, Qian Chen, Boxing Chen, Wen Wang, Yu Bai, Yang Gao
- Abstract要約: 非自己回帰機械翻訳(NAT)モデルは、自己回帰機械翻訳(AT)モデルよりも翻訳品質が低い。
完全NATモデルのデコーダにおけるターゲット依存性モデリングを強化するための,新規で汎用的な依存性認識デコーダ(DePA)を提案する。
- 参考スコア(独自算出の注目度): 32.18389249619327
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Non-autoregressive machine translation (NAT) models have lower translation
quality than autoregressive translation (AT) models because NAT decoders do not
depend on previous target tokens in the decoder input. We propose a novel and
general Dependency-Aware Decoder (DePA) to enhance target dependency modeling
in the decoder of fully NAT models from two perspectives: decoder
self-attention and decoder input. First, we propose an autoregressive
forward-backward pre-training phase before NAT training, which enables the NAT
decoder to gradually learn bidirectional target dependencies for the final NAT
training. Second, we transform the decoder input from the source language
representation space to the target language representation space through a
novel attentive transformation process, which enables the decoder to better
capture target dependencies. DePA can be applied to any fully NAT models.
Extensive experiments show that DePA consistently improves highly competitive
and state-of-the-art fully NAT models on widely used WMT and IWSLT benchmarks
by up to 1.88 BLEU gain, while maintaining the inference latency comparable to
other fully NAT models.
- Abstract(参考訳): 非自己回帰機械翻訳(nat)モデルは、natデコーダがデコーダ入力の以前のターゲットトークンに依存しないため、自己回帰機械翻訳(at)モデルよりも翻訳品質が低い。
完全NATモデルのデコーダにおいて,デコーダの自己アテンションとデコーダ入力という2つの視点から,ターゲット依存性モデリングを強化するための,新規で汎用的な依存性対応デコーダ(DePA)を提案する。
まず,NATトレーニング前の自己回帰前向き事前学習フェーズを提案し,NATデコーダが最終NATトレーニングの双方向目標依存性を徐々に学習できるようにする。
第二に、デコーダの入力をソース言語表現空間からターゲット言語表現空間に変換し、新しい注意変換プロセスにより、デコーダが対象の依存関係をよりよくキャプチャできるようにする。
DePAは完全にNATモデルに適用できる。
大規模な実験により、DePAはWMTとIWSLTのベンチマークで高い競争力と最先端のNATモデルを最大1.88BLEUゲインで改善し、他の完全なNATモデルに匹敵する推論レイテンシを維持した。
関連論文リスト
- Non-autoregressive Machine Translation with Probabilistic Context-free
Grammar [30.423141482617957]
非自己回帰変換器(NAT)は、ニューラルマシン翻訳の推論を著しく加速する。
我々は,PCFG-NATを提案する。PCFG (Probabilistic Context-Free Grammar) は,複雑な依存関係を捕捉するNATモデルの能力を高めるために,特別に設計された確率的文脈自由文法(PCFG)を利用する。
論文 参考訳(メタデータ) (2023-11-14T06:39:04Z) - Revisiting Non-Autoregressive Translation at Scale [76.93869248715664]
スケーリングが非自己回帰翻訳(NAT)行動に与える影響を系統的に研究する。
我々は、NATモデルの一般的な弱さを緩和し、結果として翻訳性能が向上することを示した。
我々は、スケールされたデータセット上でスケールされたNATモデルを検証することで、新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2023-05-25T15:22:47Z) - RenewNAT: Renewing Potential Translation for Non-Autoregressive
Transformer [15.616188012177538]
非自己回帰型ニューラルネットワーク翻訳(NAT)モデルは、比較的高い性能を維持しつつ、推論プロセスを加速するために提案される。
既存のNATモデルは、望ましい効率品質のトレードオフを達成するのは難しい。
高い効率と効率性を持つフレキシブルなフレームワークであるRenewNATを提案する。
論文 参考訳(メタデータ) (2023-03-14T07:10:03Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - Fully Non-autoregressive Neural Machine Translation: Tricks of the Trade [47.97977478431973]
NAT(Fullly non-autoregressive neural Machine Translation)は、ニューラルネットワークのシングルフォワードでトークンを同時に予測する手法である。
この作業では、レイテンシのアドバンテージを維持しながら、パフォーマンスのギャップを縮めることを目標としています。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Multi-Task Learning with Shared Encoder for Non-Autoregressive Machine
Translation [32.77372312124259]
非自己回帰機械翻訳(NAT)モデルでは推論速度が著しく向上しているが、翻訳精度は劣っている。
本稿では,自動回帰機械翻訳の知識をエンコーダの共有を通じてNATモデルに伝達するマルチタスク学習を提案する。
WMT14英語-ドイツ語とWMT16英語-ルーマニアのデータセットの実験結果は、提案されたマルチタスクNATがベースラインNATモデルよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2020-10-24T11:00:58Z) - Task-Level Curriculum Learning for Non-Autoregressive Neural Machine
Translation [188.3605563567253]
非自己回帰翻訳(NAT)は高速な推論速度を実現するが、自己回帰翻訳(AT)と比較して精度が悪くなる
本稿では、中間タスクとして半自己回帰翻訳(SAT)を導入し、ATとNATを特殊なケースとして扱う。
我々は、k を 1 から N に段階的にシフトさせるカリキュラムスケジュールを設計する。
IWSLT14 De-En, IWSLT16 En-De, WMT14 En-De, De-Enデータセットの実験により、TCL-NATは以前のNATベースラインよりも大幅に精度が向上したことが示された。
論文 参考訳(メタデータ) (2020-07-17T06:06:54Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。