論文の概要: Dynamic Data Selection and Weighting for Iterative Back-Translation
- arxiv url: http://arxiv.org/abs/2004.03672v2
- Date: Wed, 7 Oct 2020 22:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:07:44.587339
- Title: Dynamic Data Selection and Weighting for Iterative Back-Translation
- Title(参考訳): 反復バックトランスレーションのための動的データ選択と重み付け
- Authors: Zi-Yi Dou, Antonios Anastasopoulos, Graham Neubig
- Abstract要約: 本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
- 参考スコア(独自算出の注目度): 116.14378571769045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Back-translation has proven to be an effective method to utilize monolingual
data in neural machine translation (NMT), and iteratively conducting
back-translation can further improve the model performance. Selecting which
monolingual data to back-translate is crucial, as we require that the resulting
synthetic data are of high quality and reflect the target domain. To achieve
these two goals, data selection and weighting strategies have been proposed,
with a common practice being to select samples close to the target domain but
also dissimilar to the average general-domain text. In this paper, we provide
insights into this commonly used approach and generalize it to a dynamic
curriculum learning strategy, which is applied to iterative back-translation
models. In addition, we propose weighting strategies based on both the current
quality of the sentence and its improvement over the previous iteration. We
evaluate our models on domain adaptation, low-resource, and high-resource MT
settings and on two language pairs. Experimental results demonstrate that our
methods achieve improvements of up to 1.8 BLEU points over competitive
baselines.
- Abstract(参考訳): バックトランスレーションは、ニューラルネットワーク翻訳(nmt)において単言語データを利用する効果的な方法であることが証明されており、反復的にバックトランスレーションを行うことで、モデル性能をさらに向上させることができる。
結果として得られる合成データは高品質で、対象領域を反映している必要があるため、バックトランスレートする単言語データを選択することが重要です。
これら2つの目標を達成するために、データ選択と重み付け戦略が提案され、ターゲットドメインに近いサンプルを選択するのが一般的であるが、平均的な汎用ドメインテキストと異なる。
本稿では,この一般的なアプローチに対する洞察を提供し,反復的バックトランスレーションモデルに適用可能な動的カリキュラム学習戦略に一般化する。
さらに,現在の文の質と,その前回の反復に対する改善の両方に基づく重み付け戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定および2つの言語ペアに関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
関連論文リスト
- QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Improving Context Modeling in Neural Topic Segmentation [18.92944038749279]
階層型アテンションBiLSTMネットワークに基づくセグメンタを改良し、コンテキストをモデル化する。
最適化されたセグメンタは、3つのデータセットでトレーニングとテストを行った場合、SOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-10-07T03:40:49Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。