論文の概要: MvSR-NAT: Multi-view Subset Regularization for Non-Autoregressive
Machine Translation
- arxiv url: http://arxiv.org/abs/2108.08447v1
- Date: Thu, 19 Aug 2021 02:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-21 02:52:27.703582
- Title: MvSR-NAT: Multi-view Subset Regularization for Non-Autoregressive
Machine Translation
- Title(参考訳): MvSR-NAT:非自己回帰機械翻訳のための多視点サブセット正規化
- Authors: Pan Xie, Zexian Li, Xiaohui Hu
- Abstract要約: 条件付きマスク付き言語モデル(CMLM)は、非自己回帰型機械翻訳(NAT)において顕著な進歩を示している。
NATモデルの性能向上のための新しい正規化手法であるMulti-view Subset Regularization (MvSR)を導入する。
我々は従来のNATモデルよりも0.36-1.14 BLEUが向上した3つの公開ベンチマークで顕著な性能を達成した。
- 参考スコア(独自算出の注目度): 0.5586191108738562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional masked language models (CMLM) have shown impressive progress in
non-autoregressive machine translation (NAT). They learn the conditional
translation model by predicting the random masked subset in the target
sentence. Based on the CMLM framework, we introduce Multi-view Subset
Regularization (MvSR), a novel regularization method to improve the performance
of the NAT model. Specifically, MvSR consists of two parts: (1) \textit{shared
mask consistency}: we forward the same target with different mask strategies,
and encourage the predictions of shared mask positions to be consistent with
each other. (2) \textit{model consistency}, we maintain an exponential moving
average of the model weights, and enforce the predictions to be consistent
between the average model and the online model. Without changing the CMLM-based
architecture, our approach achieves remarkable performance on three public
benchmarks with 0.36-1.14 BLEU gains over previous NAT models. Moreover,
compared with the stronger Transformer baseline, we reduce the gap to 0.01-0.44
BLEU scores on small datasets (WMT16 RO$\leftrightarrow$EN and IWSLT
DE$\rightarrow$EN).
- Abstract(参考訳): 条件付きマスク付き言語モデル(CMLM)は非自己回帰機械翻訳(NAT)において顕著な進歩を示している。
対象文のランダムマスキング部分集合を予測することにより条件翻訳モデルを学習する。
CMLMフレームワークに基づいて,NATモデルの性能向上のための新しい正規化手法であるMulti-view Subset Regularization (MvSR)を導入する。
特に、MvSRは2つの部分から構成される: (1) \textit{shared mask consistency}: 同じターゲットを異なるマスク戦略で前進させ、共有マスク位置の予測を互いに一致させる。
2) <textit{model consistency} モデル重みの指数的な移動平均を維持し、平均モデルとオンラインモデルの間に一貫性のある予測を強制する。
CMLMアーキテクチャを変更せずに,従来のNATモデルよりも0.36-1.14 BLEUが向上した3つの公開ベンチマークで顕著な性能を達成した。
さらに、より強力なTransformerベースラインと比較して、小さなデータセット(WMT16 RO$\leftrightarrow$ENおよびIWSLT DE$\rightarrow$EN)上の0.01-0.44BLEUスコアにギャップを縮める。
関連論文リスト
- Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization [13.38986769508059]
Conditional Masked Language Model (CMLM) はマスク付き低信頼トークンを再予測するためにマスク予測パラダイムを採用する。
CMLMは、トレーニングと推論の間のデータ分散の相違に悩まされる。
トレーニング中のモデル予測に基づいて混合シーケンスを構築し,不完全な観測条件下でのマスクトークンの最適化を提案する。
論文 参考訳(メタデータ) (2024-02-15T05:35:04Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Non-Autoregressive Document-Level Machine Translation [35.48195990457836]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルと比較して、同等の性能と優れた速度を達成する。
しかし、それらの能力は文書レベルの機械翻訳(MT)では探索されていない。
本稿では,ソースとターゲット間の文アライメントの簡易かつ効果的な設計を提案する。
論文 参考訳(メタデータ) (2023-05-22T09:59:59Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z) - N-Gram Nearest Neighbor Machine Translation [101.25243884801183]
本稿では, 自己回帰翻訳(AT)モデルと非自己回帰翻訳(NAT)モデルの両方に適用可能な, モデルに依存しない新しいn$-gram近傍検索手法を提案する。
提案手法は,ATモデルおよびNATモデルおよび一般のドメイン適応翻訳タスクにおいて,トークンレベル法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-01-30T13:19:19Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。