論文の概要: Diformer: Directional Transformer for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2112.11632v1
- Date: Wed, 22 Dec 2021 02:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-12-23 21:23:56.078896
- Title: Diformer: Directional Transformer for Neural Machine Translation
- Title(参考訳): Diformer: ニューラルネットワーク翻訳のための方向変換器
- Authors: Minghan Wang, Jiaxin Guo, Yuxia Wang, Daimeng Wei, Hengchao Shang,
Chang Su, Yimeng Chen, Yinglu Li, Min Zhang, Shimin Tao, Hao Yang
- Abstract要約: 自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
- 参考スコア(独自算出の注目度): 13.867255817435705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) and Non-autoregressive (NAR) models have their own
superiority on the performance and latency, combining them into one model may
take advantage of both. Current combination frameworks focus more on the
integration of multiple decoding paradigms with a unified generative model,
e.g. Masked Language Model. However, the generalization can be harmful to the
performance due to the gap between training objective and inference. In this
paper, we aim to close the gap by preserving the original objective of AR and
NAR under a unified framework. Specifically, we propose the Directional
Transformer (Diformer) by jointly modelling AR and NAR into three generation
directions (left-to-right, right-to-left and straight) with a newly introduced
direction variable, which works by controlling the prediction of each token to
have specific dependencies under that direction. The unification achieved by
direction successfully preserves the original dependency assumption used in AR
and NAR, retaining both generalization and performance. Experiments on 4 WMT
benchmarks demonstrate that Diformer outperforms current united-modelling works
with more than 1.5 BLEU points for both AR and NAR decoding, and is also
competitive to the state-of-the-art independent AR and NAR models.
- Abstract(参考訳): Autoregressive (AR) と Non-autoregressive (NAR) モデルは、パフォーマンスとレイテンシにおいて、それぞれ独自の優位性を持っている。
現在の組み合わせフレームワークは、Masked Language Modelのような統合された生成モデルと複数の復号パラダイムの統合に焦点を当てている。
しかし、学習目標と推論のギャップにより、一般化が性能に悪影響を及ぼす可能性がある。
本稿では,AR と NAR の本来の目的を統一的な枠組みの下で維持することにより,そのギャップを埋めることを目的とする。
具体的には,AR と NAR を新たに導入した方向変数(左から右,右から右,ストレート)で3世代にモデル化し,各トークンの予測を制御し,その方向下で特定の依存関係を持つようにすることで,方向変換器(Diformer)を提案する。
方向によって達成された統一は、ARとNARで使われる依存性の仮定をうまく保存し、一般化と性能の両方を維持する。
4つのWMTベンチマークの実験では、Diformerは現在の統一モデリング作業よりも、ARとNARデコードの両方で1.5 BLEUポイント以上の性能を発揮しており、最先端の独立したARとNARモデルと競合している。
関連論文リスト
- Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation [26.823126615724888]
自己回帰(AR)モデルと非自己回帰(NAR)モデル(NAR)モデルはニューラルマシン翻訳(NMT)のための2種類の生成モデルである
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
論文 参考訳(メタデータ) (2024-02-28T15:55:02Z) - Distilling Autoregressive Models to Obtain High-Performance
Non-Autoregressive Solvers for Vehicle Routing Problems with Faster Inference
Speed [8.184624214651283]
本稿では,低推論遅延を有する高性能NARモデルを得るための汎用的非自己回帰的知識蒸留法(GNARKD)を提案する。
我々は、GNARKDを広く採用されている3つのARモデルに適用して、合成および実世界の両方のインスタンスに対して、NAR VRPソルバを得る。
論文 参考訳(メタデータ) (2023-12-19T07:13:32Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - An EM Approach to Non-autoregressive Conditional Sequence Generation [49.11858479436565]
自己回帰(AR)モデルは条件付きシーケンス生成において支配的なアプローチである。
非自己回帰(NAR)モデルは、最近、すべての出力トークンを並列に生成することでレイテンシを低減するために提案されている。
本稿では,ARモデルとNARモデルの両方を統合期待最大化フレームワークで協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T20:58:57Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。