論文の概要: AR: Auto-Repair the Synthetic Data for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.02196v1
- Date: Sun, 5 Apr 2020 13:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:43:14.679165
- Title: AR: Auto-Repair the Synthetic Data for Neural Machine Translation
- Title(参考訳): AR: ニューラルネットワーク翻訳のための合成データの自動修復
- Authors: Shanbo Cheng, Shaohui Kuang, Rongxiang Weng, Heng Yu, Changfeng Zhu,
Weihua Luo
- Abstract要約: 本稿では,合成データの質を向上させるための新しい自動修復(AR)フレームワークを提案する。
提案したARモデルは,低品質(ノイズの多い)入力文から高品質な文への変換を学習することができる。
本手法は, 合成並列データの品質向上に有効であり, 補修した合成データを用いたNMTモデルにより一貫した改善が達成される。
- 参考スコア(独自算出の注目度): 34.36472405208541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with only using limited authentic parallel data as training corpus,
many studies have proved that incorporating synthetic parallel data, which
generated by back translation (BT) or forward translation (FT, or
selftraining), into the NMT training process can significantly improve
translation quality. However, as a well-known shortcoming, synthetic parallel
data is noisy because they are generated by an imperfect NMT system. As a
result, the improvements in translation quality bring by the synthetic parallel
data are greatly diminished. In this paper, we propose a novel Auto- Repair
(AR) framework to improve the quality of synthetic data. Our proposed AR model
can learn the transformation from low quality (noisy) input sentence to high
quality sentence based on large scale monolingual data with BT and FT
techniques. The noise in synthetic parallel data will be sufficiently
eliminated by the proposed AR model and then the repaired synthetic parallel
data can help the NMT models to achieve larger improvements. Experimental
results show that our approach can effective improve the quality of synthetic
parallel data and the NMT model with the repaired synthetic data achieves
consistent improvements on both WMT14 EN!DE and IWSLT14 DE!EN translation
tasks.
- Abstract(参考訳): 学習コーパスとして限定された真の並列データのみを使用するのに比べ、nmtトレーニングプロセスにバック翻訳(bt)やフォワード翻訳(ft、セルフトレーニング)によって生成された合成並列データを組み込むことで、翻訳品質が大幅に向上することが多くの研究で証明されている。
しかし、よく知られた欠点として、不完全なnmtシステムによって生成されるため、合成並列データはノイズが多い。
その結果,合成並列データによる翻訳品質の向上が著しく減少した。
本稿では,合成データの質を向上させるための新しい自動修復(AR)フレームワークを提案する。
提案するarモデルは,btとftを用いた大規模単言語データに基づいて,低品質(ノイズ)入力文から高品質文への変換を学習できる。
合成並列データのノイズはarモデルによって十分に除去され、修理された合成並列データはnmtモデルがより大きな改善を達成するのに役立つ。
実験結果から,本手法は合成並列データの品質を効果的に向上し,修復された合成データを用いてnmtモデルが両wmt14エンに一貫した改善を達成できることがわかった。
デとiwslt14 de!
EN翻訳タスク。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Non-Fluent Synthetic Target-Language Data Improve Neural Machine
Translation [0.0]
本研究では,非流用目標文を用いた合成学習サンプルが翻訳性能を向上させることを示す。
この改善は、元のトレーニングコーパスのサイズとは無関係である。
論文 参考訳(メタデータ) (2024-01-29T11:52:45Z) - On Synthetic Data for Back Translation [66.6342561585953]
逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。
バックトランスレーションNMTの性能を制御する合成データには,品質と重要性の2つの重要な要素を同定する。
そこで本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを生成するための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:24:12Z) - Advancing Semi-Supervised Learning for Automatic Post-Editing: Data-Synthesis by Mask-Infilling with Erroneous Terms [5.366354612549173]
高品質な合成データを作成するためのデータ合成手法に着目する。
本稿では,結果の合成データが実際のデータにある翻訳誤りを模倣するデータ合成手法を提案する。
実験結果から, 提案手法により生成した合成データを用いることで, 既存の合成データよりもAPEの性能が有意に向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T07:48:57Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - Enhanced back-translation for low resource neural machine translation
using self-training [0.0]
本研究は,後進モデルの出力を用いて前方翻訳手法を用いてモデル自体を改善する自己学習戦略を提案する。
この技術は、ベースラインの低リソースであるIWSLT'14とIWSLT'15をそれぞれ11.06と1.5BLEUに改良することを示した。
改良された英語-ドイツ語の後方モデルによって生成された合成データを用いて前方モデルを訓練し、2.7BLEUで標準の後方翻訳を用いて訓練された別の前方モデルより優れていた。
論文 参考訳(メタデータ) (2020-06-04T14:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。