論文の概要: Synthesizing Monolingual Data for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2101.12462v1
- Date: Fri, 29 Jan 2021 08:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 16:47:48.299180
- Title: Synthesizing Monolingual Data for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための単言語データ合成
- Authors: Benjamin Marie, Atsushi Fujita
- Abstract要約: ニューラルマシン翻訳(NMT)では、ターゲット言語の単言語データが通常、追加の訓練並列データを合成するために利用される。
ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。
特定の領域における非常に小さな単言語データを利用した大規模合成並列データを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 22.031658738184166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In neural machine translation (NMT), monolingual data in the target language
are usually exploited through a method so-called "back-translation" to
synthesize additional training parallel data. The synthetic data have been
shown helpful to train better NMT, especially for low-resource language pairs
and domains. Nonetheless, large monolingual data in the target domains or
languages are not always available to generate large synthetic parallel data.
In this work, we propose a new method to generate large synthetic parallel data
leveraging very small monolingual data in a specific domain. We fine-tune a
pre-trained GPT-2 model on such small in-domain monolingual data and use the
resulting model to generate a large amount of synthetic in-domain monolingual
data. Then, we perform back-translation, or forward translation, to generate
synthetic in-domain parallel data. Our preliminary experiments on three
language pairs and five domains show the effectiveness of our method to
generate fully synthetic but useful in-domain parallel data for improving NMT
in all configurations. We also show promising results in extreme adaptation for
personalized NMT.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)では、ターゲット言語のモノリンガルデータは、通常「バックトランスレーション」と呼ばれる方法で、追加の訓練並列データを合成する。
合成データはより優れたNMT、特に低リソース言語ペアとドメインのトレーニングに役立つことが示されている。
それでも、ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。
本研究では,特定の領域において,非常に小さな単言語データを利用する大規模合成並列データを生成する新しい手法を提案する。
予め訓練されたGPT-2モデルをこのような小さなドメイン内モノリンガルデータに微調整し、その結果モデルを使用して大量の合成インドメインモノリンガルデータを生成します。
次に、バックトランスレーションまたはフォワードトランスレーションを行い、合成インドメイン並列データを生成します。
3つの言語ペアと5つのドメインに関する予備実験を行い,全構成のnmtを改善するために,完全合成だが有用なドメイン内並列データを生成する手法の有効性を示した。
また,パーソナライズされたnmtに対して極端に適応する有望な結果を示す。
関連論文リスト
- A Morphologically-Aware Dictionary-based Data Augmentation Technique for
Machine Translation of Under-Represented Languages [31.18983138590214]
本稿では,モルフォシンタクティック情報とバイリンガル辞書を用いて並列データを合成する手法を提案する。
我々の手法は、小さな並列シードデータによって支えられた現実的なシナリオに固執する。
文法的に正しい可能性が高い拡張データを作成することを目的としており、言語的に知らされている。
論文 参考訳(メタデータ) (2024-02-02T22:25:44Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Robust Domain Adaptation for Pre-trained Multilingual Neural Machine
Translation Models [0.0]
本稿では,組込み凍結と対向損失を組み合わせた汎用mNMTの微調整手法を提案する。
実験では、全ての言語対に対する汎用ドメインの初期性能を最小限に抑えながら、特殊なデータの性能を向上させることを示した。
論文 参考訳(メタデータ) (2022-10-26T18:47:45Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。