論文の概要: On the Copying Behaviors of Pre-Training for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2107.08212v1
- Date: Sat, 17 Jul 2021 10:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 07:16:40.521265
- Title: On the Copying Behaviors of Pre-Training for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳における事前学習の複写挙動について
- Authors: Xuebo Liu, Longyue Wang, Derek F. Wong, Liang Ding, Lidia S. Chao,
Shuming Shi, Zhaopeng Tu
- Abstract要約: これまでの研究で、ニューラルネットワーク翻訳(NMT)モデルを事前訓練言語モデル(LM)で初期化することは、モデルのトレーニングを高速化し、モデル性能を向上させることが示されている。
本研究では,NMTのトレーニング目標とNMTの訓練目標との相違から,NMTの事前訓練における重要な副作用を同定する。
本稿では,復号における複写動作を制御するために,複写ペナルティ(copying penalty)というシンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 63.914940899327966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous studies have shown that initializing neural machine translation
(NMT) models with the pre-trained language models (LM) can speed up the model
training and boost the model performance. In this work, we identify a critical
side-effect of pre-training for NMT, which is due to the discrepancy between
the training objectives of LM-based pre-training and NMT. Since the LM
objective learns to reconstruct a few source tokens and copy most of them, the
pre-training initialization would affect the copying behaviors of NMT models.
We provide a quantitative analysis of copying behaviors by introducing a metric
called copying ratio, which empirically shows that pre-training based NMT
models have a larger copying ratio than the standard one. In response to this
problem, we propose a simple and effective method named copying penalty to
control the copying behaviors in decoding. Extensive experiments on both
in-domain and out-of-domain benchmarks show that the copying penalty method
consistently improves translation performance by controlling copying behaviors
for pre-training based NMT models. Source code is freely available at
https://github.com/SunbowLiu/CopyingPenalty.
- Abstract(参考訳): これまでの研究で、ニューラルネットワーク翻訳(NMT)モデルを事前訓練言語モデル(LM)で初期化することは、モデルのトレーニングを高速化し、モデル性能を向上させることが示されている。
本研究では,NMTのトレーニング目標とNMTの訓練目標との相違から,NMTの事前訓練における重要な副作用を同定する。
LMの目的は、いくつかのソーストークンを再構築し、その大部分をコピーすることを学ぶため、トレーニング前の初期化はNTTモデルのコピー動作に影響を与える。
そこで本研究では,先行学習型nmtモデルが標準モデルよりも高い複写率を持つことを示す複写率と呼ばれる指標を導入することにより,複写行動の定量的解析を行う。
この問題に対して,復号における複写動作を制御するためにペナルティというシンプルで効果的な手法を提案する。
ドメイン内およびドメイン外ベンチマークの大規模な実験により、プレトレーニングベースNMTモデルのコピー動作を制御することにより、コピーペナルティ法は変換性能を一貫して向上することが示された。
ソースコードはhttps://github.com/SunbowLiu/CopyingPenalty.comで無料で入手できる。
関連論文リスト
- On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - Language Models "Grok" to Copy [36.50007948478452]
本稿では,先行する文脈からテキストをコピーする能力に着目し,言語モデルの事前学習のダイナミクスについて検討する。
本稿では,トランスフォーマーをベースとした言語モデルが,グルーキングと同様の模倣能力を発達させる,という新たな視点を提案する。
グラッキングとコンテキストコピーの関連性は、より効果的な言語モデルトレーニングに有用な洞察をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2024-09-14T03:11:00Z) - A Scalable and Efficient Iterative Method for Copying Machine Learning
Classifiers [0.802904964931021]
本稿では,機械学習モデルのコピーのトレーニングや維持に必要な計算資源を大幅に削減する,新しいシーケンシャルなアプローチを提案する。
シーケンシャルアプローチの有効性は、合成データセットと実世界のデータセットによる実験を通じて実証され、正確性を維持したり改善したりしながら、時間とリソースの大幅な削減を示す。
論文 参考訳(メタデータ) (2023-02-06T10:07:41Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである
事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。
翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z) - Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models [20.976165305749777]
我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。
本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T03:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。