論文の概要: Non-Fluent Synthetic Target-Language Data Improve Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2401.16086v1
- Date: Mon, 29 Jan 2024 11:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 15:02:28.435015
- Title: Non-Fluent Synthetic Target-Language Data Improve Neural Machine
Translation
- Title(参考訳): 非フルーエント合成目標言語データによるニューラルマシン翻訳の改善
- Authors: V\'ictor M. S\'anchez-Cartagena, Miquel Espl\`a-Gomis, Juan Antonio
P\'erez-Ortiz, Felipe S\'anchez-Mart\'inez
- Abstract要約: 本研究では,非流用目標文を用いた合成学習サンプルが翻訳性能を向上させることを示す。
この改善は、元のトレーニングコーパスのサイズとは無関係である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When the amount of parallel sentences available to train a neural machine
translation is scarce, a common practice is to generate new synthetic training
samples from them. A number of approaches have been proposed to produce
synthetic parallel sentences that are similar to those in the parallel data
available. These approaches work under the assumption that non-fluent
target-side synthetic training samples can be harmful and may deteriorate
translation performance. Even so, in this paper we demonstrate that synthetic
training samples with non-fluent target sentences can improve translation
performance if they are used in a multilingual machine translation framework as
if they were sentences in another language. We conducted experiments on ten
low-resource and four high-resource translation tasks and found out that this
simple approach consistently improves translation performance as compared to
state-of-the-art methods for generating synthetic training samples similar to
those found in corpora. Furthermore, this improvement is independent of the
size of the original training corpus, the resulting systems are much more
robust against domain shift and produce less hallucinations.
- Abstract(参考訳): ニューラルマシン翻訳の訓練に利用できる並行文の量は少ない場合、それらから新しい合成トレーニングサンプルを生成するのが一般的である。
並列データに類似した合成並列文を生成するために,いくつかの手法が提案されている。
これらのアプローチは、非流動的なターゲット側合成トレーニングサンプルが有害であり、翻訳性能が低下する可能性があるという仮定の下で機能する。
そこで,本研究では,多言語機械翻訳の枠組みにおいて,他言語の文であるかのように使用される場合,非流用目標文を用いた合成学習サンプルが翻訳性能を向上させることを実証する。
10個の低リソースおよび4つの高リソース翻訳タスクの実験を行い、コーパスに類似した合成学習サンプルを生成する最先端の手法と比較して、この単純な手法は翻訳性能を一貫して改善することを示した。
さらに、この改善は元のトレーニングコーパスのサイズとは無関係であり、結果として得られるシステムはドメインシフトに対してより堅牢であり、幻覚を少なくする。
関連論文リスト
- Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。