論文の概要: Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models
- arxiv url: http://arxiv.org/abs/2004.05757v1
- Date: Mon, 13 Apr 2020 03:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:07:11.238132
- Title: Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models
- Title(参考訳): 事前学習型ニューラルネットワーク翻訳モデルの強化カリキュラム学習
- Authors: Mingjun Zhao, Haijiang Wu, Di Niu and Xiaoli Wang
- Abstract要約: 我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。
本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.976165305749777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The competitive performance of neural machine translation (NMT) critically
relies on large amounts of training data. However, acquiring high-quality
translation pairs requires expert knowledge and is costly. Therefore, how to
best utilize a given dataset of samples with diverse quality and
characteristics becomes an important yet understudied question in NMT.
Curriculum learning methods have been introduced to NMT to optimize a model's
performance by prescribing the data input order, based on heuristics such as
the assessment of noise and difficulty levels. However, existing methods
require training from scratch, while in practice most NMT models are
pre-trained on big data already. Moreover, as heuristics, they do not
generalize well. In this paper, we aim to learn a curriculum for improving a
pre-trained NMT model by re-selecting influential data samples from the
original training set and formulate this task as a reinforcement learning
problem. Specifically, we propose a data selection framework based on
Deterministic Actor-Critic, in which a critic network predicts the expected
change of model performance due to a certain sample, while an actor network
learns to select the best sample out of a random batch of samples presented to
it. Experiments on several translation datasets show that our method can
further improve the performance of NMT when original batch training reaches its
ceiling, without using additional new training data, and significantly
outperforms several strong baseline methods.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)の競争性能は、大量のトレーニングデータに依存している。
しかし、高品質な翻訳ペアの獲得には専門家の知識が必要であり、費用がかかる。
したがって、様々な品質と特徴を持つサンプルのデータセットを最大限に活用するには、nmtでは重要ながら未熟な問題となる。
ノイズや難易度の評価などのヒューリスティックに基づいて,データ入力順序を規定することで,モデルの性能を最適化するカリキュラム学習手法がNMTに導入されている。
しかし、既存の手法ではスクラッチからトレーニングする必要があるが、実際にはほとんどのnmtモデルは既にビッグデータで事前トレーニングされている。
さらに、ヒューリスティックとして、それらはうまく一般化しない。
本稿では,従来のトレーニングセットから影響力のあるデータサンプルを再選択し,強化学習問題として定式化することで,事前学習したNMTモデルを改善するカリキュラムの学習を目的とする。
具体的には,特定のサンプルによるモデル性能の期待変化を批評家ネットワークが予測する決定論的アクタ-クリティックに基づくデータ選択フレームワークを提案するとともに,アクタネットワークが提示したサンプルのランダムバッチの中から最適なサンプルを選択することを学習する。
いくつかの翻訳データセットの実験により,本手法は,新たなトレーニングデータを用いることなく,オリジナルバッチトレーニングが天井に到達した際のNMTの性能をさらに向上し,強力なベースライン法を著しく上回ることを示す。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Order Matters in the Presence of Dataset Imbalance for Multilingual
Learning [53.74649778447903]
本稿では,高リソースタスクの事前学習をシンプルかつ効果的に行う方法と,高リソースタスクと低リソースタスクの混合による微調整について述べる。
ニューラルネットワーク翻訳(NMT)と多言語言語モデリングの改善について述べる。
論文 参考訳(メタデータ) (2023-12-11T05:46:57Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Self-Influence Guided Data Reweighting for Language Model Pre-training [46.57714637505164]
言語モデル (LM) は、様々なNLPタスクのためのモデルを開発するためのデフォルトの出発点となっている。
コーパス内のすべてのデータサンプルは、LM事前トレーニング中に同等に重要視される。
データの関連性や品質のレベルが異なるため、すべてのデータサンプルと同等の重要性が最適な選択ではないかもしれない。
本稿では,サンプルの重要度と事前学習の指標として自己影響(SI)スコアを活用することで,サンプルを共同で重み付けするPreSenceを提案する。
論文 参考訳(メタデータ) (2023-11-02T01:00:46Z) - Data Selection Curriculum for Neural Machine Translation [31.55953464971441]
NMTモデルのための2段階のカリキュラムトレーニングフレームワークを提案する。
我々は、事前学習法とオンラインスコアを用いた決定論的スコアリングの両方によって選択されたデータのサブセットに基づいてベースNMTモデルを微調整する。
我々のカリキュラム戦略は、常により良い品質(+2.2BLEUの改善)とより高速な収束を示すことを示した。
論文 参考訳(メタデータ) (2022-03-25T19:08:30Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Reconstructing Training Data from Diverse ML Models by Ensemble
Inversion [8.414622657659168]
モデルインバージョン(MI)は、学習された機械学習(ML)モデルへのアクセスを敵が悪用するものであり、研究の注目を集めている。
本研究では,訓練されたモデルのアンサンブルに制約されたジェネレータを訓練することにより,元のトレーニングデータの分布を推定するアンサンブル変換手法を提案する。
データセットを使わずに高品質な結果が得られ、想定されるトレーニングデータに類似した補助データセットを利用することで、結果がどう改善されるかを示す。
論文 参考訳(メタデータ) (2021-11-05T18:59:01Z) - Dynamic Curriculum Learning for Low-Resource Neural Machine Translation [27.993407441922507]
低リソースNMTにおけるトレーニングデータの有効利用について検討する。
特に、トレーニングのトレーニングサンプルを並べ替えるための動的カリキュラム学習(DCL)手法を提案する。
これにより、現在のモデルが学ぶのに十分な能力を持つような簡単なサンプルをハイライトすることで、トレーニングが簡単になります。
論文 参考訳(メタデータ) (2020-11-30T08:13:41Z) - Data Rejuvenation: Exploiting Inactive Training Examples for Neural
Machine Translation [86.40610684026262]
本研究では,モデルの性能に寄与しない非アクティブなトレーニング例を特定する。
非アクティブな例を利用して大規模なデータセット上でのNMTモデルのトレーニングを改善するために、データ再構成を導入する。
WMT14の英語・ドイツ語・英語・フランス語データセットによる実験結果から,提案したデータ再生は一貫して,いくつかの強力なNMTモデルの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2020-10-06T08:57:31Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。