論文の概要: Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2105.03953v1
- Date: Sun, 9 May 2021 14:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:21:36.741523
- Title: Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation
- Title(参考訳): 極低出力ニューラルマシン翻訳のための連続混合言語事前学習
- Authors: Zihan Liu, Genta Indra Winata, Pascale Fung
- Abstract要約: 我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
- 参考スコア(独自算出の注目度): 53.22775597051498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The data scarcity in low-resource languages has become a bottleneck to
building robust neural machine translation systems. Fine-tuning a multilingual
pre-trained model (e.g., mBART (Liu et al., 2020)) on the translation task is a
good approach for low-resource languages; however, its performance will be
greatly limited when there are unseen languages in the translation pairs. In
this paper, we present a continual pre-training (CPT) framework on mBART to
effectively adapt it to unseen languages. We first construct noisy
mixed-language text from the monolingual corpus of the target language in the
translation pair to cover both the source and target languages, and then, we
continue pre-training mBART to reconstruct the original monolingual text.
Results show that our method can consistently improve the fine-tuning
performance upon the mBART baseline, as well as other strong baselines, across
all tested low-resource translation pairs containing unseen languages.
Furthermore, our approach also boosts the performance on translation pairs
where both languages are seen in the original mBART's pre-training. The code is
available at https://github.com/zliucr/cpt-nmt.
- Abstract(参考訳): 低リソース言語のデータの不足は、堅牢なニューラルネットワーク翻訳システム構築のボトルネックとなっている。
翻訳タスクにおける多言語事前訓練モデル(例えば、mBART (Liu et al., 2020))の微調整は、低リソース言語には良いアプローチであるが、翻訳ペアに見知らぬ言語が存在する場合、その性能は大幅に制限される。
本稿では,mBARTにCPT(Continuous Pre-Training)フレームワークを導入し,未知の言語に効果的に適用する。
まず,対象言語の単言語コーパスから雑音の多い混合言語テキストを翻訳ペアに構築し,原文と対象言語の両方をカバーし,mBARTを事前学習し,元の単言語テキストを再構築する。
その結果,本手法は,未使用言語を含むすべての低リソース翻訳ペアにおいて,mbartベースラインおよび他の強力なベースライン上での微調整性能を一貫して向上できることがわかった。
さらに,本手法により,元のmBARTの事前学習で両言語が見られる翻訳ペアの性能も向上する。
コードはhttps://github.com/zliucr/cpt-nmtで入手できる。
関連論文リスト
- Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Improving Multilingual Neural Machine Translation For Low-Resource
Languages: French-, English- Vietnamese [4.103253352106816]
本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。
両言語対のバイリンガルベースラインシステムに対して,+1.62と+2.54のBLEU点が大幅に改善された。
論文 参考訳(メタデータ) (2020-12-16T04:43:43Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。