論文の概要: Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation
- arxiv url: http://arxiv.org/abs/2301.13753v1
- Date: Tue, 31 Jan 2023 16:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:53:40.436315
- Title: Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation
- Title(参考訳): ニューラルテキスト生成のための模倣損失を伴う動的スケジュールサンプリング
- Authors: Xiang Lin, Prathyusha Jwalapuram and Shafiq Joty
- Abstract要約: トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
- 参考スコア(独自算出の注目度): 10.306522595622651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art neural text generation models are typically trained to
maximize the likelihood of each token in the ground-truth sequence conditioned
on the previous target tokens. However, during inference, the model needs to
make a prediction conditioned on the tokens generated by itself. This
train-test discrepancy is referred to as exposure bias. Scheduled sampling is a
curriculum learning strategy that gradually exposes the model to its own
predictions during training to mitigate this bias. Most of the proposed
approaches design a scheduler based on training steps, which generally requires
careful tuning depending on the training setup. In this work, we introduce
Dynamic Scheduled Sampling with Imitation Loss (DySI), which maintains the
schedule based solely on the training time accuracy, while enhancing the
curriculum learning by introducing an imitation loss, which attempts to make
the behavior of the decoder indistinguishable from the behavior of a
teacher-forced decoder. DySI is universally applicable across training setups
with minimal tuning. Extensive experiments and analysis show that DySI not only
achieves notable improvements on standard machine translation benchmarks, but
also significantly improves the robustness of other text generation models.
- Abstract(参考訳): 最先端のニューラルテキスト生成モデルは、通常、前のターゲットトークンに条件付けられた接地トラスシーケンスにおける各トークンの可能性を最大にするために訓練される。
しかし、推論の間、モデルはそれ自体が生成したトークンに条件付けされた予測を行う必要がある。
この列車試験の相違は露光バイアスと呼ばれる。
スケジュールサンプリング(scheduled sampling)は、トレーニング中にモデルを徐々に自身の予測に公開し、バイアスを軽減するカリキュラム学習戦略である。
提案手法の大部分は,トレーニング手順に基づいたスケジューラの設計である。
そこで本研究では,教師が強制するデコーダの挙動と区別できないデコーダの挙動を具体化する模倣損失を導入することで,カリキュラム学習を向上しつつ,トレーニング時間精度のみに基づいてスケジュールを維持できる模倣損失を用いた動的スケジュールサンプリング(dysi)を導入する。
DySIは最小限のチューニングでトレーニング設定に普遍的に適用できる。
広範な実験と分析により、dysiは標準機械翻訳ベンチマークで注目すべき改善を達成しただけでなく、他のテキスト生成モデルのロバスト性も大幅に向上した。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - Scheduled Sampling Based on Decoding Steps for Neural Machine
Translation [25.406119773503786]
提案手法では,復号化ステップに基づくサンプリング手法を提案し,復号化ステップの増大に伴い,予測トークンの選択可能性を高める。
提案手法は,3つの大規模WMTタスクにおいて,トランスフォーマーベースラインとバニラスケジュールサンプリングを著しく上回っている。
論文 参考訳(メタデータ) (2021-08-30T02:41:42Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。