論文の概要: Integrating Unsupervised Data Generation into Self-Supervised Neural
Machine Translation for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2107.08772v1
- Date: Mon, 19 Jul 2021 11:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:03:38.016924
- Title: Integrating Unsupervised Data Generation into Self-Supervised Neural
Machine Translation for Low-Resource Languages
- Title(参考訳): 低リソース言語のための教師なしデータ生成と自己教師なしニューラルマシン翻訳の統合
- Authors: Dana Ruiter, Dietrich Klakow, Josef van Genabith, Cristina
Espa\~na-Bonet
- Abstract要約: 非教師なし機械翻訳(UMT)は大量のモノリンガルデータを利用する。
SSNMT (Self-supervised NMT) は、より小さなデータで並列文を識別し、それらを訓練する。
SSNMTにUTT手法を組み込むことで、全てのテストされた言語対においてSNMTとUTTを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 25.33888871213517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For most language combinations, parallel data is either scarce or simply
unavailable. To address this, unsupervised machine translation (UMT) exploits
large amounts of monolingual data by using synthetic data generation techniques
such as back-translation and noising, while self-supervised NMT (SSNMT)
identifies parallel sentences in smaller comparable data and trains on them. To
date, the inclusion of UMT data generation techniques in SSNMT has not been
investigated. We show that including UMT techniques into SSNMT significantly
outperforms SSNMT and UMT on all tested language pairs, with improvements of up
to +4.3 BLEU, +50.8 BLEU, +51.5 over SSNMT, statistical UMT and hybrid UMT,
respectively, on Afrikaans to English. We further show that the combination of
multilingual denoising autoencoding, SSNMT with backtranslation and bilingual
finetuning enables us to learn machine translation even for distant language
pairs for which only small amounts of monolingual data are available, e.g.
yielding BLEU scores of 11.6 (English to Swahili).
- Abstract(参考訳): ほとんどの言語の組み合わせでは、並列データはほとんど使用できないか、単に使用できない。
これに対処するために、unsupervised machine translation (umt) はバックトランスレーションやノージングのような合成データ生成技術を用いて大量の単言語データを利用する一方、自己教師付きnmt (ssnmt) はより小さな比較データで並列文を識別し、それらを訓練する。
これまで,SSNMTにUTTデータ生成技術が組み込まれているかは検討されていない。
SSNMT に UMT を組み込むことで,SSNMT と UMT を全テスト言語対で有意に上回り,+4.3 BLEU,+50.8 BLEU,+51.5 over SSNMT,統計的 UMT とハイブリッド UMT をそれぞれ英語と英語で比較した。
さらに,多言語発声自動符号化,ssnmtとバックトランスレーション,バイリンガル微調整の組み合わせにより,少ない単言語データしか利用できない遠隔言語ペアであっても,機械翻訳を学習できることを示した。
BLEUスコアは11.6(スワヒリ語)。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Synthesizing Monolingual Data for Neural Machine Translation [22.031658738184166]
ニューラルマシン翻訳(NMT)では、ターゲット言語の単言語データが通常、追加の訓練並列データを合成するために利用される。
ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。
特定の領域における非常に小さな単言語データを利用した大規模合成並列データを生成する手法を提案する。
論文 参考訳(メタデータ) (2021-01-29T08:17:40Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。