論文の概要: Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation
- arxiv url: http://arxiv.org/abs/2106.00903v1
- Date: Wed, 2 Jun 2021 02:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 08:17:04.317005
- Title: Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation
- Title(参考訳): 低頻度単語の再生:非自己回帰翻訳における並列データの利用
- Authors: Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao and
Zhaopeng Tu
- Abstract要約: 知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 98.11249019844281
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Knowledge distillation (KD) is commonly used to construct synthetic data for
training non-autoregressive translation (NAT) models. However, there exists a
discrepancy on low-frequency words between the distilled and the original data,
leading to more errors on predicting low-frequency words. To alleviate the
problem, we directly expose the raw data into NAT by leveraging pretraining. By
analyzing directed alignments, we found that KD makes low-frequency source
words aligned with targets more deterministically but fails to align sufficient
low-frequency words from target to source. Accordingly, we propose reverse KD
to rejuvenate more alignments for low-frequency target words. To make the most
of authentic and synthetic data, we combine these complementary approaches as a
new training strategy for further boosting NAT performance. We conduct
experiments on five translation benchmarks over two advanced architectures.
Results demonstrate that the proposed approach can significantly and
universally improve translation quality by reducing translation errors on
low-frequency words. Encouragingly, our approach achieves 28.2 and 33.9 BLEU
points on the WMT14 English-German and WMT16 Romanian-English datasets,
respectively. Our code, data, and trained models are available at
\url{https://github.com/longyuewangdcu/RLFW-NAT}.
- Abstract(参考訳): 知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
しかし、蒸留された単語と原データとの間には低周波単語の相違があり、低周波単語の予測により多くの誤りが生じる。
問題を緩和するために、プレトレーニングを利用して生データをNATに直接公開する。
有向アライメントを解析した結果,KD は低周波ソース語をより確定的にターゲットに整合させるが,十分な低周波ワードをターゲットからソースに整合させることができないことがわかった。
そこで本研究では,低周波ターゲット単語のアライメントを増加させる逆kdを提案する。
そこで本研究では,NAT性能向上のための新たなトレーニング戦略として,これらの相補的アプローチを組み合わせる。
2つの高度なアーキテクチャで5つの翻訳ベンチマーク実験を行った。
提案手法は低周波単語の翻訳誤りを低減し,翻訳品質を大幅に向上させることができることを示す。
提案手法は,WMT14 と WMT16 のルーマニア英語データセットに対して,それぞれ 28.2 と 33.9 のBLEU 点を達成している。
私たちのコード、データ、トレーニングされたモデルは、 \url{https://github.com/longyuewangdcu/RLFW-NAT}で利用可能です。
関連論文リスト
- DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation [29.76274107159478]
非自己回帰変換器(NAT)は音声から音声への直接変換システムに適用される。
拡散に基づく正規化戦略であるDiffNormを導入し、NATモデルをトレーニングするためのデータ分散を簡単にする。
CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)では+2ASR-BLEUが顕著に改善した。
論文 参考訳(メタデータ) (2024-05-22T01:10:39Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - An Empirical Study of Language Model Integration for Transducer based
Speech Recognition [23.759084092602517]
密度比 (DR) やILME (ILME) などの手法が開発され, 古典的な浅層核融合 (SF) 法よりも優れていた。
DRのための低次弱ILMをトレーニングし、低次密度比法(LODR)を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:33:50Z) - HintedBT: Augmenting Back-Translation with Quality and Transliteration
Hints [7.452359972117693]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である
私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。
これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T17:43:20Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。