論文の概要: Layer-wise Regularized Dropout for Neural Language Models
- arxiv url: http://arxiv.org/abs/2402.16361v1
- Date: Mon, 26 Feb 2024 07:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:13:42.846443
- Title: Layer-wise Regularized Dropout for Neural Language Models
- Title(参考訳): ニューラルネットワークモデルのための階層型正規化ドロップアウト
- Authors: Shiwen Ni, Min Yang, Ruifeng Xu, Chengming Li and Xiping Hu
- Abstract要約: レイヤワイド正規化ドロップアウト(LR-Drop)は、トランスフォーマーベースの言語モデルのために特別に設計されている。
LR-Dropは、最先端の結果を含む優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 57.422407462430186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the various pre-trained neural language models that are popular today,
dropout is already an indispensable regularization technique. To solve the
inconsistency between training and inference caused by the randomness of
dropout, some studies use consistency training to regularize dropout at the
output layer. In this paper, we propose a novel Layer-wise Regularized Dropout
(LR-Drop), which is specially designed for Transformer-based Language models.
Specifically, LR-Drop layer-wise regularizes each Transformer layer using the
consistency training strategy. Each training sample passes through the two
siamese sub-models sampled by dropout, and then LR-Drop forces the hidden
states, multi-head attention matrices, and output distribution of the two
siamese sub-models to be consistent. The proposed LR-Drop can be regarded as a
"self-distillation" framework, in which each sub-model generated by dropout is
the other's "teacher" model and "student" model. Through extensive experiments
on 8 natural language understanding datasets, 6 neural machine translation
datasets, and 1 abstractive summarization dataset (a total of 15 datasets), we
show that LR-Drop achieves superior performances, including state-of-the-art
results.
- Abstract(参考訳): 今日普及している様々なトレーニング済みのニューラルネットワークモデルの中で、ドロップアウトはすでに必須の正規化技術である。
ドロップアウトのランダム性に起因するトレーニングと推論の不整合を解決するために,一貫性トレーニングを用いて出力層でのドロップアウトを規則化する研究もある。
本稿では,トランスフォーマティブ言語モデル用に特別に設計された階層型正規化ドロップアウト (lr-drop) を提案する。
具体的には、LR-Drop層は整合性トレーニング戦略を用いて各トランスフォーマー層を適宜調整する。
各トレーニングサンプルは、ドロップアウトによってサンプリングされた2つのシアムサブモデルを通過した後、LR-Dropは隠れた状態、多頭部注意行列、および2つのシアムサブモデルの出力分布を一貫性のあるものに強制する。
提案したLR-Dropは「自己蒸留」フレームワークとみなすことができ、ドロップアウトによって生成された各サブモデルは他方の「教師」モデルと「学生」モデルである。
8つの自然言語理解データセット、6つのニューラルマシン翻訳データセット、1つの抽象的な要約データセット(合計15のデータセット)に関する広範な実験を通して、LR-Dropが最先端の結果を含む優れたパフォーマンスを達成することを示す。
関連論文リスト
- R-Block: Regularized Block of Dropout for convolutional networks [0.0]
正規化手法としてのドロップアウトは、完全に接続された層で広く使われているが、畳み込み層では効果が低い。
本稿では,畳み込み層正規化のための相互学習学習戦略,すなわちR-Blockを適用した。
R-Blockは他の構造化されたドロップアウトモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T18:53:14Z) - Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization [58.90989478049686]
Bi-Dropは、様々なサブネットからの勾配を使ってモデルパラメータを選択的に更新する微調整戦略である。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-05-24T06:09:26Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Dropout can Simulate Exponential Number of Models for Sample Selection
Techniques [0.0]
モデルに基づくサンプル選択手法を2つ変更して,指数関数的な数の共有モデルを使用する方法を示す。
単一のモデルをDropoutで使用するのがより便利であるだけでなく、このアプローチはDropoutの自然な利点と指数関数的な数のモデルのトレーニングの利点を兼ね備えている。
論文 参考訳(メタデータ) (2022-02-26T17:53:26Z) - R-Drop: Regularized Dropout for Neural Networks [99.42791938544012]
ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
論文 参考訳(メタデータ) (2021-06-28T08:01:26Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - UniDrop: A Simple yet Effective Technique to Improve Transformer without
Extra Cost [110.67392881417777]
トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。
ドロップアウトなどのシンプルな手法で、慎重な設計でモデル性能を大幅に向上させることができます。
具体的には,3種類のドロップアウト手法を統一するUniDropという手法を提案する。
論文 参考訳(メタデータ) (2021-04-11T07:43:19Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。