論文の概要: Frequency-Aware Contrastive Learning for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2112.14484v1
- Date: Wed, 29 Dec 2021 10:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:31:30.647975
- Title: Frequency-Aware Contrastive Learning for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための周波数対応コントラスト学習
- Authors: Tong Zhang, Wei Ye, Baosong Yang, Long Zhang, Xingzhang Ren, Dayiheng
Liu, Jinan Sun, Shikun Zhang, Haibo Zhang, Wen Zhao
- Abstract要約: 低周波ワード予測は、現代のニューラルマシン翻訳(NMT)システムにおいて依然として課題である。
低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。
本稿では,各復号ステップの隠蔽状態を他のターゲット語から押し出す,周波数対応のトークンレベルのコントラスト学習手法を提案する。
- 参考スコア(独自算出の注目度): 24.336356651877388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-frequency word prediction remains a challenge in modern neural machine
translation (NMT) systems. Recent adaptive training methods promote the output
of infrequent words by emphasizing their weights in the overall training
objectives. Despite the improved recall of low-frequency words, their
prediction precision is unexpectedly hindered by the adaptive objectives.
Inspired by the observation that low-frequency words form a more compact
embedding space, we tackle this challenge from a representation learning
perspective. Specifically, we propose a frequency-aware token-level contrastive
learning method, in which the hidden state of each decoding step is pushed away
from the counterparts of other target words, in a soft contrastive way based on
the corresponding word frequencies. We conduct experiments on widely used NIST
Chinese-English and WMT14 English-German translation tasks. Empirical results
show that our proposed methods can not only significantly improve the
translation quality but also enhance lexical diversity and optimize word
representation space. Further investigation reveals that, comparing with
related adaptive training strategies, the superiority of our method on
low-frequency word prediction lies in the robustness of token-level recall
across different frequencies without sacrificing precision.
- Abstract(参考訳): 現代のニューラルマシン翻訳(nmt)システムでは、低周波単語予測が課題となっている。
近年の適応的学習手法は, 訓練対象の重みを強調することで, 頻繁な単語の出力を促進する。
低頻度単語のリコールが改善されたにもかかわらず、その予測精度は適応目的によって予期せぬほど妨げられている。
低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。
具体的には,各復号ステップの隠れ状態が,対応する単語頻度に基づいてソフトコントラスト的に他の対象単語の対応状態から遠ざかる,頻度対応トークンレベルのコントラスト学習手法を提案する。
我々は、広く使われているNIST中国語とWMT14英語とドイツ語の翻訳タスクについて実験を行った。
実験の結果,提案手法は翻訳品質を向上するだけでなく,語彙の多様性を高め,単語表現空間を最適化する。
さらに, 適応学習手法と比較して, 低周波単語予測手法の優位性は, 精度を犠牲にすることなく, 異なる周波数におけるトークンレベルのリコールの堅牢性にあることが明らかとなった。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition [21.61242091927018]
トレンディングワードや新しい名前を持つエンティティなど、Of-Vocabulary以外の単語は、現代のASRシステムに問題を引き起こす。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
論文 参考訳(メタデータ) (2023-02-20T02:21:30Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。