論文の概要: Directed Acyclic Transformer for Non-Autoregressive Machine Translation
- arxiv url: http://arxiv.org/abs/2205.07459v1
- Date: Mon, 16 May 2022 06:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:46:58.075464
- Title: Directed Acyclic Transformer for Non-Autoregressive Machine Translation
- Title(参考訳): 非自己回帰機械翻訳のための有向非巡回変圧器
- Authors: Fei Huang, Hao Zhou, Yang Liu, Hang Li, Minlie Huang
- Abstract要約: Directed Acyclic Transfomer (DA-Transformer) は、DAG (Directed Acyclic Graph) の隠れ状態を表す。
DA-Transformerは、平均して約3 BLEUで以前のNATよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 93.31114105366461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive Transformers (NATs) significantly reduce the decoding
latency by generating all tokens in parallel. However, such independent
predictions prevent NATs from capturing the dependencies between the tokens for
generating multiple possible translations. In this paper, we propose Directed
Acyclic Transfomer (DA-Transformer), which represents the hidden states in a
Directed Acyclic Graph (DAG), where each path of the DAG corresponds to a
specific translation. The whole DAG simultaneously captures multiple
translations and facilitates fast predictions in a non-autoregressive fashion.
Experiments on the raw training data of WMT benchmark show that DA-Transformer
substantially outperforms previous NATs by about 3 BLEU on average, which is
the first NAT model that achieves competitive results with autoregressive
Transformers without relying on knowledge distillation.
- Abstract(参考訳): 非自己回帰変換器(NAT)は、すべてのトークンを並列に生成することでデコード遅延を著しく低減する。
しかし、このような独立した予測は、NATが複数の可能な翻訳を生成するトークン間の依存関係をキャプチャすることを防ぐ。
本稿では,DAGの各経路が特定の翻訳に対応するDAG(Directed Acyclic Transfomer)の隠れ状態を表すDA-Transformerを提案する。
DAG全体は同時に複数の翻訳をキャプチャし、非自己回帰的な高速な予測を容易にする。
WMTベンチマークの生のトレーニングデータから、DA-Transformerは、知識蒸留に頼ることなく自己回帰変換器と競合する結果を得る最初のNATモデルである、平均で約3BLEUのNATよりも大幅に優れていた。
関連論文リスト
- Quick Back-Translation for Unsupervised Machine Translation [9.51657235413336]
我々は Transformer back-translation: Quick Back-translation (QBT) に対する2対1の改善を提案する。
QBTは、エンコーダを生成モデルとして再使用し、エンコーダ生成シーケンスを使用してデコーダを訓練する。
様々なWMTベンチマーク実験により、QBTはトレーニング効率の点で標準逆翻訳法よりも劇的に優れていることが示された。
論文 参考訳(メタデータ) (2023-12-01T20:27:42Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive
Machine Translation [18.205288788056787]
非自己回帰翻訳(NAT)は、復号遅延を低減させるが、マルチモード問題による性能劣化に悩まされる。
本稿では,グラフ内のすべての経路が参照文とファジィに一致しているという見解を保持する。
正確なアライメントは必要ありませんが、グラフと参照の間のファジィアライメントスコアを最大化するためにモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-03-12T13:51:38Z) - Rephrasing the Reference for Non-Autoregressive Machine Translation [37.816198073720614]
非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の可能な翻訳が存在する可能性があるというマルチモーダリティの問題に悩まされる。
我々は、NAT出力に従って参照文をリフレッシュすることで、NATのためのより良いトレーニングターゲットを提供するためのリフレッサーを導入する。
我々の最良の変種は、推論の14.7倍の効率で、自動回帰変換器に匹敵する性能を実現しています。
論文 参考訳(メタデータ) (2022-11-30T10:05:03Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Viterbi Decoding of Directed Acyclic Transformer for Non-Autoregressive
Machine Translation [13.474844448367367]
非自己回帰モデルは、ニューラルネットワーク翻訳において大幅なデコードスピードアップを実現するが、シーケンシャルな依存関係をキャプチャする能力は欠如している。
本稿では, DA-Transformer のためのビタビ復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-11T06:53:34Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。