論文の概要: Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2109.06308v1
- Date: Mon, 13 Sep 2021 20:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 05:54:29.686287
- Title: Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation
- Title(参考訳): 神経機械翻訳における弾性重み重み和らぎを伴うスケジュール標本の致死的消失の軽減
- Authors: Michalis Korakakis, Andreas Vlachos
- Abstract要約: 最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 15.581515781839656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite strong performance in many sequence-to-sequence tasks, autoregressive
models trained with maximum likelihood estimation suffer from exposure bias,
i.e. a discrepancy between the ground-truth prefixes used during training and
the model-generated prefixes used at inference time. Scheduled sampling is a
simple and often empirically successful approach which addresses this issue by
incorporating model-generated prefixes into the training process. However, it
has been argued that it is an inconsistent training objective leading to models
ignoring the prefixes altogether. In this paper, we conduct systematic
experiments and find that it ameliorates exposure bias by increasing model
reliance on the input sequence. We also observe that as a side-effect, it
worsens performance when the model-generated prefix is correct, a form of
catastrophic forgetting. We propose using Elastic Weight Consolidation as
trade-off between mitigating exposure bias and retaining output quality.
Experiments on two IWSLT'14 translation tasks demonstrate that our approach
alleviates catastrophic forgetting and significantly improves BLEU compared to
standard scheduled sampling.
- Abstract(参考訳): 多くのシーケンシャル・ツー・シーケンスタスクで強力な性能を誇っているにもかかわらず、最大確率推定で訓練された自己回帰モデルは、露出バイアス、すなわち訓練中に使用される接地接頭辞と推論時に使用されるモデル生成接頭辞とのずれに苦しむ。
スケジュールサンプリングは、モデル生成プレフィックスをトレーニングプロセスに組み込むことでこの問題に対処する、シンプルで経験的に成功したアプローチである。
しかし、プレフィックスを完全に無視するモデルに繋がる、一貫性のないトレーニングの目標であると議論されている。
本稿では,システム実験を行い,入力シーケンスのモデル依存度を増大させることにより,露出バイアスを改善する。
また, 副作用として, モデル生成プレフィックスが正しい場合, 破滅的忘れの形で性能が悪くなることも観察した。
露出バイアスの軽減と出力品質の維持のトレードオフとして,弾性重み密着性を利用することを提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、標準のスケジュールサンプリングよりもBLEUを大幅に改善することを示した。
関連論文リスト
- Post-Hoc Reversal: Are We Selecting Models Prematurely? [13.910702424593797]
ポストホック変換を適用した後に性能傾向が逆転するポストホック逆転現象を示す。
予備的な分析は、これらの変換が、誤ラベルされた例の影響を抑えることによって、逆転を引き起こすことを示唆している。
ポストホック選択(post-hoc selection)は、ポストホックメトリクスがモデル開発決定を通知するシンプルな手法である。
論文 参考訳(メタデータ) (2024-04-11T14:58:19Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Input Perturbation Reduces Exposure Bias in Diffusion Models [41.483581603727444]
本稿では,長いサンプリングチェーンが,自己回帰テキスト生成における露出バイアス問題と同様の誤差蓄積現象を引き起こすことを示す。
本稿では,推定時間予測誤差をシミュレートするために,基底真理サンプルを摂動させることにより,非常に単純で効果的なトレーニング正則化を提案する。
実験により,リコールと精度に影響を与えることなく,提案した入力摂動がサンプル品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-01-27T13:34:54Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - Bayesian Sampling Bias Correction: Training with the Right Loss Function [0.0]
我々は、サンプリングバイアスの存在下でモデルを訓練するために損失関数の族を導出する。
例えば、病理の頻度がトレーニングデータセットのサンプリングレートと異なる場合や、マシンラーニングの実践者がトレーニングデータセットを再バランスする場合などだ。
論文 参考訳(メタデータ) (2020-06-24T15:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。