論文の概要: AR: Auto-Repair the Synthetic Data for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.02196v1
- Date: Sun, 5 Apr 2020 13:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:43:14.679165
- Title: AR: Auto-Repair the Synthetic Data for Neural Machine Translation
- Title(参考訳): AR: ニューラルネットワーク翻訳のための合成データの自動修復
- Authors: Shanbo Cheng, Shaohui Kuang, Rongxiang Weng, Heng Yu, Changfeng Zhu,
Weihua Luo
- Abstract要約: 本稿では,合成データの質を向上させるための新しい自動修復(AR)フレームワークを提案する。
提案したARモデルは,低品質(ノイズの多い)入力文から高品質な文への変換を学習することができる。
本手法は, 合成並列データの品質向上に有効であり, 補修した合成データを用いたNMTモデルにより一貫した改善が達成される。
- 参考スコア(独自算出の注目度): 34.36472405208541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with only using limited authentic parallel data as training corpus,
many studies have proved that incorporating synthetic parallel data, which
generated by back translation (BT) or forward translation (FT, or
selftraining), into the NMT training process can significantly improve
translation quality. However, as a well-known shortcoming, synthetic parallel
data is noisy because they are generated by an imperfect NMT system. As a
result, the improvements in translation quality bring by the synthetic parallel
data are greatly diminished. In this paper, we propose a novel Auto- Repair
(AR) framework to improve the quality of synthetic data. Our proposed AR model
can learn the transformation from low quality (noisy) input sentence to high
quality sentence based on large scale monolingual data with BT and FT
techniques. The noise in synthetic parallel data will be sufficiently
eliminated by the proposed AR model and then the repaired synthetic parallel
data can help the NMT models to achieve larger improvements. Experimental
results show that our approach can effective improve the quality of synthetic
parallel data and the NMT model with the repaired synthetic data achieves
consistent improvements on both WMT14 EN!DE and IWSLT14 DE!EN translation
tasks.
- Abstract(参考訳): 学習コーパスとして限定された真の並列データのみを使用するのに比べ、nmtトレーニングプロセスにバック翻訳(bt)やフォワード翻訳(ft、セルフトレーニング)によって生成された合成並列データを組み込むことで、翻訳品質が大幅に向上することが多くの研究で証明されている。
しかし、よく知られた欠点として、不完全なnmtシステムによって生成されるため、合成並列データはノイズが多い。
その結果,合成並列データによる翻訳品質の向上が著しく減少した。
本稿では,合成データの質を向上させるための新しい自動修復(AR)フレームワークを提案する。
提案するarモデルは,btとftを用いた大規模単言語データに基づいて,低品質(ノイズ)入力文から高品質文への変換を学習できる。
合成並列データのノイズはarモデルによって十分に除去され、修理された合成並列データはnmtモデルがより大きな改善を達成するのに役立つ。
実験結果から,本手法は合成並列データの品質を効果的に向上し,修復された合成データを用いてnmtモデルが両wmt14エンに一貫した改善を達成できることがわかった。
デとiwslt14 de!
EN翻訳タスク。
関連論文リスト
- Non-Fluent Synthetic Target-Language Data Improve Neural Machine
Translation [0.0]
本研究では,非流用目標文を用いた合成学習サンプルが翻訳性能を向上させることを示す。
この改善は、元のトレーニングコーパスのサイズとは無関係である。
論文 参考訳(メタデータ) (2024-01-29T11:52:45Z) - On Synthetic Data for Back Translation [66.6342561585953]
逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。
バックトランスレーションNMTの性能を制御する合成データには,品質と重要性の2つの重要な要素を同定する。
そこで本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを生成するための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:24:12Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - Enhanced back-translation for low resource neural machine translation
using self-training [0.0]
本研究は,後進モデルの出力を用いて前方翻訳手法を用いてモデル自体を改善する自己学習戦略を提案する。
この技術は、ベースラインの低リソースであるIWSLT'14とIWSLT'15をそれぞれ11.06と1.5BLEUに改良することを示した。
改良された英語-ドイツ語の後方モデルによって生成された合成データを用いて前方モデルを訓練し、2.7BLEUで標準の後方翻訳を用いて訓練された別の前方モデルより優れていた。
論文 参考訳(メタデータ) (2020-06-04T14:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。