論文の概要: Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization
- arxiv url: http://arxiv.org/abs/2402.09725v1
- Date: Thu, 15 Feb 2024 05:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:51:28.533879
- Title: Improving Non-autoregressive Machine Translation with Error Exposure and
Consistency Regularization
- Title(参考訳): エラー露光と一貫性規則化による非自己回帰機械翻訳の改善
- Authors: Xinran Chen, Sufeng Duan, Gongshen Liu
- Abstract要約: Conditional Masked Language Model (CMLM) はマスク付き低信頼トークンを再予測するためにマスク予測パラダイムを採用する。
CMLMは、トレーニングと推論の間のデータ分散の相違に悩まされる。
トレーニング中のモデル予測に基づいて混合シーケンスを構築し,不完全な観測条件下でのマスクトークンの最適化を提案する。
- 参考スコア(独自算出の注目度): 13.38986769508059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being one of the IR-NAT (Iterative-refinemennt-based NAT) frameworks, the
Conditional Masked Language Model (CMLM) adopts the mask-predict paradigm to
re-predict the masked low-confidence tokens. However, CMLM suffers from the
data distribution discrepancy between training and inference, where the
observed tokens are generated differently in the two cases. In this paper, we
address this problem with the training approaches of error exposure and
consistency regularization (EECR). We construct the mixed sequences based on
model prediction during training, and propose to optimize over the masked
tokens under imperfect observation conditions. We also design a consistency
learning method to constrain the data distribution for the masked tokens under
different observing situations to narrow down the gap between training and
inference. The experiments on five translation benchmarks obtains an average
improvement of 0.68 and 0.40 BLEU scores compared to the base models,
respectively, and our CMLMC-EECR achieves the best performance with a
comparable translation quality with the Transformer. The experiments results
demonstrate the effectiveness of our method.
- Abstract(参考訳): IR-NAT(Iterative-Refinemennt-based NAT)フレームワークの1つであるConditional Masked Language Model (CMLM)では、マスク付き低信頼トークンの再予測にマスク予測パラダイムを採用している。
しかし、CMLMはトレーニングと推論の間にデータ分散の相違に悩まされ、観察されたトークンは2つのケースで異なる形で生成される。
本稿では,エラー露光と整合正則化(EECR)のトレーニング手法を用いてこの問題に対処する。
訓練中のモデル予測に基づく混合シーケンスを構築し,不完全な観察条件下でマスクトークンを最適化する手法を提案する。
また,異なる観測条件下でのマスクトークンのデータ分布を制約し,トレーニングと推論のギャップを狭めるための一貫性学習手法を設計する。
5つの翻訳ベンチマークにおける実験では、ベースモデルと比較して平均0.68 bleuスコアと 0.40 bleuスコアが得られ、cmlmc-eecrはトランスフォーマーと同等の翻訳品質で最高の性能を達成している。
実験の結果,本手法の有効性が示された。
関連論文リスト
- PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis [0.74454067778951]
Masked Modeling (MLM) の連続的多クラス分類タスクをヒストグラムに基づく条件密度推定として再定義し,MaCoDEを提案する。
目的変数と条件変数の任意の組み合わせで条件密度を推定できる。
提案モデルの有効性を検証するため,10個の実世界のデータセットにまたがる合成データ生成の性能を評価する。
論文 参考訳(メタデータ) (2024-05-31T03:26:42Z) - Towards Robust and Interpretable EMG-based Hand Gesture Recognition using Deep Metric Meta Learning [37.21211404608413]
本稿では,意味的かつ解釈可能な表現の作成を監督するために,EMG PRにおける深層メートル法メタラーニングへのシフトを提案する。
我々は、不正確な決定をよりよく拒否する頑健なクラス近接性に基づく信頼度推定器を導出する。
論文 参考訳(メタデータ) (2024-04-17T23:37:50Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - MvSR-NAT: Multi-view Subset Regularization for Non-Autoregressive
Machine Translation [0.5586191108738562]
条件付きマスク付き言語モデル(CMLM)は、非自己回帰型機械翻訳(NAT)において顕著な進歩を示している。
NATモデルの性能向上のための新しい正規化手法であるMulti-view Subset Regularization (MvSR)を導入する。
我々は従来のNATモデルよりも0.36-1.14 BLEUが向上した3つの公開ベンチマークで顕著な性能を達成した。
論文 参考訳(メタデータ) (2021-08-19T02:30:38Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。