論文の概要: Non-Autoregressive Machine Translation with Disentangled Context
Transformer
- arxiv url: http://arxiv.org/abs/2001.05136v2
- Date: Tue, 30 Jun 2020 07:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:22:57.098343
- Title: Non-Autoregressive Machine Translation with Disentangled Context
Transformer
- Title(参考訳): 不等角化コンテクストトランスフォーマタを用いた非自己回帰機械翻訳
- Authors: Jungo Kasai, James Cross, Marjan Ghazvininejad, Jiatao Gu
- Abstract要約: 最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
- 参考スコア(独自算出の注目度): 70.95181466892795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art neural machine translation models generate a translation
from left to right and every step is conditioned on the previously generated
tokens. The sequential nature of this generation process causes fundamental
latency in inference since we cannot generate multiple tokens in each sentence
in parallel. We propose an attention-masking based model, called Disentangled
Context (DisCo) transformer, that simultaneously generates all tokens given
different contexts. The DisCo transformer is trained to predict every output
token given an arbitrary subset of the other reference tokens. We also develop
the parallel easy-first inference algorithm, which iteratively refines every
token in parallel and reduces the number of required iterations. Our extensive
experiments on 7 translation directions with varying data sizes demonstrate
that our model achieves competitive, if not better, performance compared to the
state of the art in non-autoregressive machine translation while significantly
reducing decoding time on average. Our code is available at
https://github.com/facebookresearch/DisCo.
- Abstract(参考訳): 最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
この生成プロセスのシーケンシャルな性質は、各文で複数のトークンを並列に生成できないため、推論の基本的な遅延を引き起こす。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
DisCo変換器は、他の参照トークンの任意のサブセットが与えられた全ての出力トークンを予測するように訓練される。
また,すべてのトークンを並列に精錬し,必要なイテレーション数を削減する並列イージーファースト推論アルゴリズムを開発した。
データサイズが異なる7つの翻訳方向について広範な実験を行った結果,本モデルの性能は,非回帰機械翻訳における性能と比較して,平均的な復号化時間を大幅に削減しながら,競争力を発揮できることが示された。
私たちのコードはhttps://github.com/facebookresearch/discoで利用可能です。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z) - Efficient Wait-k Models for Simultaneous Machine Translation [46.01342928010307]
同時機械翻訳は、入力シーケンス全体が利用可能になる前に出力生成を開始することで構成される。
Wait-kデコーダは、この問題に対してシンプルだが効率的なアプローチを提供する。
IWSLTデータセットを用いた音声コーパスの低リソース設定におけるwait-k復号の動作について検討する。
論文 参考訳(メタデータ) (2020-05-18T11:14:23Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。