論文の概要: Bilingual Mutual Information Based Adaptive Training for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2105.12523v1
- Date: Wed, 26 May 2021 12:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:32:15.965935
- Title: Bilingual Mutual Information Based Adaptive Training for Neural Machine
Translation
- Title(参考訳): バイリンガル相互情報に基づくニューラルマシン翻訳のための適応学習
- Authors: Yangyifan Xu, Yijin Liu, Fandong Meng, Jiajun Zhang, Jinan Xu, Jie
Zhou
- Abstract要約: 本稿では,両言語主義の観点から,目標トークンの学習難度を計測する,新しいバイリンガル相互情報(BMI)に基づく適応目的を提案する。
WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。
- 参考スコア(独自算出の注目度): 38.83163343372786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, token-level adaptive training has achieved promising improvement in
machine translation, where the cross-entropy loss function is adjusted by
assigning different training weights to different tokens, in order to alleviate
the token imbalance problem. However, previous approaches only use static word
frequency information in the target language without considering the source
language, which is insufficient for bilingual tasks like machine translation.
In this paper, we propose a novel bilingual mutual information (BMI) based
adaptive objective, which measures the learning difficulty for each target
token from the perspective of bilingualism, and assigns an adaptive weight
accordingly to improve token-level adaptive training. This method assigns
larger training weights to tokens with higher BMI, so that easy tokens are
updated with coarse granularity while difficult tokens are updated with fine
granularity. Experimental results on WMT14 English-to-German and WMT19
Chinese-to-English demonstrate the superiority of our approach compared with
the Transformer baseline and previous token-level adaptive training approaches.
Further analyses confirm that our method can improve the lexical diversity.
- Abstract(参考訳): 近年,トークンレベルの適応トレーニングは,異なるトークンに異なるトレーニング重みを割り当てることで,クロスエントロピー損失関数を調整し,トークンの不均衡問題を軽減し,機械翻訳における有望な改善を実現している。
しかし、従来の手法では、ソース言語を考慮せずにターゲット言語の静的単語頻度情報のみを使用しており、機械翻訳のようなバイリンガルタスクには不十分である。
本稿では,両言語主義の観点から目標トークンの学習困難度を測定し,トークンレベルの適応訓練を改善するために適応重みを割り当てる,新しいバイリンガル相互情報(BMI)に基づく適応目標を提案する。
この方法はbmiの高いトークンに対してより大きなトレーニング重みを割り当て、簡単なトークンは粗い粒度で更新され、難しいトークンは細かい粒度で更新される。
WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。
さらなる分析により,本手法は語彙多様性を向上できることが確認された。
関連論文リスト
- Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - Conditional Bilingual Mutual Information Based Adaptive Training for
Neural Machine Translation [66.23055784400475]
トークンレベルの適応トレーニングアプローチはトークンの不均衡問題を緩和することができる。
条件付きバイリンガル相互情報(CBMI)という目標コンテキスト対応メトリックを提案する。
CBMIは、事前の統計計算なしで、モデルトレーニング中に効率的に計算することができる。
論文 参考訳(メタデータ) (2022-03-06T12:34:10Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。