論文の概要: Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization
- arxiv url: http://arxiv.org/abs/2402.09725v1
- Date: Thu, 15 Feb 2024 05:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:51:28.533879
- Title: Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization
- Title(参考訳): エラー露光と一貫性規則化による非自己回帰機械翻訳の改善
- Authors: Xinran Chen, Sufeng Duan, Gongshen Liu
- Abstract要約: Conditional Masked Language Model (CMLM) はマスク付き低信頼トークンを再予測するためにマスク予測パラダイムを採用する。
CMLMは、トレーニングと推論の間のデータ分散の相違に悩まされる。
トレーニング中のモデル予測に基づいて混合シーケンスを構築し,不完全な観測条件下でのマスクトークンの最適化を提案する。
- 参考スコア(独自算出の注目度): 13.38986769508059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being one of the IR-NAT (Iterative-refinemennt-based NAT) frameworks, the
Conditional Masked Language Model (CMLM) adopts the mask-predict paradigm to
re-predict the masked low-confidence tokens. However, CMLM suffers from the
data distribution discrepancy between training and inference, where the
observed tokens are generated differently in the two cases. In this paper, we
address this problem with the training approaches of error exposure and
consistency regularization (EECR). We construct the mixed sequences based on
model prediction during training, and propose to optimize over the masked
tokens under imperfect observation conditions. We also design a consistency
learning method to constrain the data distribution for the masked tokens under
different observing situations to narrow down the gap between training and
inference. The experiments on five translation benchmarks obtains an average
improvement of 0.68 and 0.40 BLEU scores compared to the base models,
respectively, and our CMLMC-EECR achieves the best performance with a
comparable translation quality with the Transformer. The experiments results
demonstrate the effectiveness of our method.
- Abstract(参考訳): IR-NAT(Iterative-Refinemennt-based NAT)フレームワークの1つであるConditional Masked Language Model (CMLM)では、マスク付き低信頼トークンの再予測にマスク予測パラダイムを採用している。
しかし、CMLMはトレーニングと推論の間にデータ分散の相違に悩まされ、観察されたトークンは2つのケースで異なる形で生成される。
本稿では,エラー露光と整合正則化(EECR)のトレーニング手法を用いてこの問題に対処する。
訓練中のモデル予測に基づく混合シーケンスを構築し,不完全な観察条件下でマスクトークンを最適化する手法を提案する。
また,異なる観測条件下でのマスクトークンのデータ分布を制約し,トレーニングと推論のギャップを狭めるための一貫性学習手法を設計する。
5つの翻訳ベンチマークにおける実験では、ベースモデルと比較して平均0.68 bleuスコアと 0.40 bleuスコアが得られ、cmlmc-eecrはトランスフォーマーと同等の翻訳品質で最高の性能を達成している。
実験の結果,本手法の有効性が示された。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - MvSR-NAT: Multi-view Subset Regularization for Non-Autoregressive
Machine Translation [0.5586191108738562]
条件付きマスク付き言語モデル(CMLM)は、非自己回帰型機械翻訳(NAT)において顕著な進歩を示している。
NATモデルの性能向上のための新しい正規化手法であるMulti-view Subset Regularization (MvSR)を導入する。
我々は従来のNATモデルよりも0.36-1.14 BLEUが向上した3つの公開ベンチマークで顕著な性能を達成した。
論文 参考訳(メタデータ) (2021-08-19T02:30:38Z) - Disentangled Contrastive Learning for Learning Robust Textual
Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。
NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-04-11T03:32:49Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。