論文の概要: Dynamic Curriculum Learning for Low-Resource Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2011.14608v1
- Date: Mon, 30 Nov 2020 08:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:52:34.621895
- Title: Dynamic Curriculum Learning for Low-Resource Neural Machine Translation
- Title(参考訳): 低リソースニューラルマシン翻訳のための動的カリキュラム学習
- Authors: Chen Xu, Bojie Hu, Yufan Jiang, Kai Feng, Zeyang Wang, Shen Huang, Qi
Ju, Tong Xiao, Jingbo Zhu
- Abstract要約: 低リソースNMTにおけるトレーニングデータの有効利用について検討する。
特に、トレーニングのトレーニングサンプルを並べ替えるための動的カリキュラム学習(DCL)手法を提案する。
これにより、現在のモデルが学ぶのに十分な能力を持つような簡単なサンプルをハイライトすることで、トレーニングが簡単になります。
- 参考スコア(独自算出の注目度): 27.993407441922507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large amounts of data has made neural machine translation (NMT) a big success
in recent years. But it is still a challenge if we train these models on
small-scale corpora. In this case, the way of using data appears to be more
important. Here, we investigate the effective use of training data for
low-resource NMT. In particular, we propose a dynamic curriculum learning (DCL)
method to reorder training samples in training. Unlike previous work, we do not
use a static scoring function for reordering. Instead, the order of training
samples is dynamically determined in two ways - loss decline and model
competence. This eases training by highlighting easy samples that the current
model has enough competence to learn. We test our DCL method in a
Transformer-based system. Experimental results show that DCL outperforms
several strong baselines on three low-resource machine translation benchmarks
and different sized data of WMT' 16 En-De.
- Abstract(参考訳): 大量のデータによって、近年ではニューラルマシン翻訳(nmt)が大きな成功を収めている。
しかし、小規模コーパスでこれらのモデルをトレーニングすれば、依然として課題です。
この場合、データの使い方の方が重要だと思われる。
本稿では,低リソースNMTにおけるトレーニングデータの有効利用について検討する。
特に、トレーニングのトレーニングサンプルを並べ替えるための動的カリキュラム学習(DCL)手法を提案する。
以前の作業とは異なり、リオーダリングには静的スコアリング機能を使用しない。
代わりに、トレーニングサンプルの順序は、損失減少とモデルの能力の2つの方法で動的に決定される。
これにより、現在のモデルが学習するのに十分な能力を持つ簡単なサンプルを強調することで、トレーニングが容易になる。
トランスフォーマーベースシステムでDCL法をテストする。
実験の結果、DCLはWMTの16 En-Deの3つの低リソース機械翻訳ベンチマークと異なるサイズのデータに対して、いくつかの強いベースラインを上回ります。
関連論文リスト
- Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - Conditional Online Learning for Keyword Spotting [0.0]
本研究では,新しいデータが利用可能になると,SGDを介してキーワードスポッターをデバイス上で更新する,シンプルだが効果的なオンライン連続学習手法について検討する。
実験により, オンライン学習の簡単な実装と比較して, トレーニング分布から引き出された小さなホールドアウトセットにおいて, 条件付きモデル更新により, 破滅的な忘れが軽減されることが示されている。
論文 参考訳(メタデータ) (2023-05-19T15:46:31Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Effective Vision Transformer Training: A Data-Centric Perspective [24.02488085447691]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)と比較して有望な性能を示した
本稿では,DDP(Dynamic Data Proportion)やKAR(Knowledge Assimilation Rate)など,いくつかの指標を定義する。
トレーニングサンプルの難易度を動的に測定し,異なるトレーニング段階におけるモデルに対する効果的なサンプルを生成するための,新しいデータ中心型ViTトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T17:59:46Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Data Rejuvenation: Exploiting Inactive Training Examples for Neural
Machine Translation [86.40610684026262]
本研究では,モデルの性能に寄与しない非アクティブなトレーニング例を特定する。
非アクティブな例を利用して大規模なデータセット上でのNMTモデルのトレーニングを改善するために、データ再構成を導入する。
WMT14の英語・ドイツ語・英語・フランス語データセットによる実験結果から,提案したデータ再生は一貫して,いくつかの強力なNMTモデルの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2020-10-06T08:57:31Z) - Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models [20.976165305749777]
我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。
本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T03:40:44Z) - Understanding Learning Dynamics for Neural Machine Translation [53.23463279153577]
ロス・チェンジ・アロケーション (LCA)citeplan 2019-loss-change-allocation を用いてNMTの学習力学を理解することを提案する。
LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。
シミュレーション実験により, 近似計算は効率的であり, 実験により一貫した結果が得られることを示した。
論文 参考訳(メタデータ) (2020-04-05T13:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。