論文の概要: Token-wise Curriculum Learning for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2103.11088v1
- Date: Sat, 20 Mar 2021 03:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:57:29.037024
- Title: Token-wise Curriculum Learning for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のためのトークンワイズカリキュラム学習
- Authors: Chen Liang, Haoming Jiang, Xiaodong Liu, Pengcheng He, Weizhu Chen,
Jianfeng Gao and Tuo Zhao
- Abstract要約: ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
- 参考スコア(独自算出の注目度): 94.93133801641707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing curriculum learning approaches to Neural Machine Translation (NMT)
require sampling sufficient amounts of "easy" samples from training data at the
early training stage. This is not always achievable for low-resource languages
where the amount of training data is limited. To address such limitation, we
propose a novel token-wise curriculum learning approach that creates sufficient
amounts of easy samples. Specifically, the model learns to predict a short
sub-sequence from the beginning part of each target sentence at the early stage
of training, and then the sub-sequence is gradually expanded as the training
progresses. Such a new curriculum design is inspired by the cumulative effect
of translation errors, which makes the latter tokens more difficult to predict
than the beginning ones. Extensive experiments show that our approach can
consistently outperform baselines on 5 language pairs, especially for
low-resource languages. Combining our approach with sentence-level methods
further improves the performance on high-resource languages.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分な量の"簡単"サンプルをサンプリングする必要がある。
これは、トレーニングデータの量が限られている低リソース言語では、必ずしも達成できない。
このような制限に対処するために,簡単なサンプルを十分に生成するトークン単位のカリキュラム学習手法を提案する。
具体的には、訓練の初期段階において、各目標文の先頭部分から短いサブシーケンスを予測することを学習し、訓練が進むにつれて徐々にサブシーケンスが拡大される。
このような新しいカリキュラム設計は、翻訳エラーの累積効果にインスパイアされており、後者のトークンは初期よりも予測が難しい。
大規模な実験により、我々のアプローチは5つの言語対、特に低リソース言語において、一貫してベースラインを上回ります。
このアプローチと文レベルの手法を組み合わせることで、高リソース言語のパフォーマンスがさらに向上します。
関連論文リスト
- On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability [25.52470575274251]
より長く一貫性のあるテキストを生成するために学習する前に、言語モデルが短い反復句を生成するのを観察する。
個々のトークンは、トレーニング前のランニングで驚くほど一貫性のある、突然の増減または損失の減少を示すことが多い。
より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。
論文 参考訳(メタデータ) (2023-08-29T16:24:09Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better
Translators [10.557167523009392]
本稿では,事前学習した言語モデルを翻訳タスクに適応させるための,シンプルで軽量な手法であるMulti-Stage Promptingを提案する。
事前学習された言語モデルをより優れた翻訳者にするために,事前学習された言語モデルを介して翻訳過程を3つの段階に分けた。
各段階において、事前訓練された言語モデルを翻訳タスクに適応させるために、異なる連続的なプロンプトを独立して適用する。
論文 参考訳(メタデータ) (2021-10-13T10:06:21Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。