論文の概要: Data Rejuvenation: Exploiting Inactive Training Examples for Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2010.02552v1
- Date: Tue, 6 Oct 2020 08:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:49:08.757061
- Title: Data Rejuvenation: Exploiting Inactive Training Examples for Neural
Machine Translation
- Title(参考訳): データの再帰: ニューラルマシン翻訳における非アクティブなトレーニング例の活用
- Authors: Wenxiang Jiao, Xing Wang, Shilin He, Irwin King, Michael R. Lyu,
Zhaopeng Tu
- Abstract要約: 本研究では,モデルの性能に寄与しない非アクティブなトレーニング例を特定する。
非アクティブな例を利用して大規模なデータセット上でのNMTモデルのトレーニングを改善するために、データ再構成を導入する。
WMT14の英語・ドイツ語・英語・フランス語データセットによる実験結果から,提案したデータ再生は一貫して,いくつかの強力なNMTモデルの性能を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 86.40610684026262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale training datasets lie at the core of the recent success of neural
machine translation (NMT) models. However, the complex patterns and potential
noises in the large-scale data make training NMT models difficult. In this
work, we explore to identify the inactive training examples which contribute
less to the model performance, and show that the existence of inactive examples
depends on the data distribution. We further introduce data rejuvenation to
improve the training of NMT models on large-scale datasets by exploiting
inactive examples. The proposed framework consists of three phases. First, we
train an identification model on the original training data, and use it to
distinguish inactive examples and active examples by their sentence-level
output probabilities. Then, we train a rejuvenation model on the active
examples, which is used to re-label the inactive examples with
forward-translation. Finally, the rejuvenated examples and the active examples
are combined to train the final NMT model. Experimental results on WMT14
English-German and English-French datasets show that the proposed data
rejuvenation consistently and significantly improves performance for several
strong NMT models. Extensive analyses reveal that our approach stabilizes and
accelerates the training process of NMT models, resulting in final models with
better generalization capability.
- Abstract(参考訳): 大規模なトレーニングデータセットは、最近のニューラルマシン翻訳(NMT)モデルの成功の中核にある。
しかし、大規模データにおける複雑なパターンや潜在的なノイズは、NMTモデルのトレーニングを困難にしている。
本研究では,モデル性能にあまり寄与しない非アクティブなトレーニング例を特定し,非アクティブな例の存在がデータ分布に依存することを示す。
さらに,非アクティブな例を活用し,大規模データセット上でのnmtモデルのトレーニングを改善するために,データの再帰についても紹介する。
提案するフレームワークは3つのフェーズで構成されている。
まず、元のトレーニングデータに基づいて識別モデルを訓練し、不活性な例とアクティブな例を文レベルの出力確率で識別する。
次に、アクティブな例で再帰モデルをトレーニングし、不活性な例を前方変換で再ラベル付けする。
最後に、再帰的な例とアクティブな例を組み合わせて最終nmtモデルをトレーニングする。
WMT14の英語・ドイツ語・英語・フランス語データセットによる実験結果から,提案したデータ再生は一貫して,いくつかの強力なNMTモデルの性能を著しく向上させることが示された。
広範な解析結果から,nmtモデルの学習過程を安定化・加速し,最終モデルの一般化能力が向上することが明らかとなった。
関連論文リスト
- Training Data Attribution for Diffusion Models [1.1733780065300188]
そこで本研究では,アンサンブルを用いて学習データが拡散モデルの出力にどのように影響するかを明らかにする新しい手法を提案する。
我々のアプローチでは、エンコードされたアンサンブル内の個々のモデルは、影響のあるトレーニング例の識別を可能にするために、訓練データ全体の分割を慎重に設計した上で訓練される。
得られたモデルアンサンブルは、トレーニングデータの影響の効率的なアブレーションを可能にし、トレーニングデータがモデル出力に与える影響を評価する。
論文 参考訳(メタデータ) (2023-06-03T18:36:12Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Dynamic Curriculum Learning for Low-Resource Neural Machine Translation [27.993407441922507]
低リソースNMTにおけるトレーニングデータの有効利用について検討する。
特に、トレーニングのトレーニングサンプルを並べ替えるための動的カリキュラム学習(DCL)手法を提案する。
これにより、現在のモデルが学ぶのに十分な能力を持つような簡単なサンプルをハイライトすることで、トレーニングが簡単になります。
論文 参考訳(メタデータ) (2020-11-30T08:13:41Z) - Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models [20.976165305749777]
我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。
本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T03:40:44Z) - Forecasting Industrial Aging Processes with Machine Learning Methods [0.0]
我々は、従来のステートレスモデルとより複雑なリカレントニューラルネットワークを比較して、幅広いデータ駆動モデルを評価する。
以上の結果から,リカレントモデルでは,より大きなデータセットでトレーニングした場合,ほぼ完璧な予測が得られた。
論文 参考訳(メタデータ) (2020-02-05T13:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。