論文の概要: R-Drop: Regularized Dropout for Neural Networks
- arxiv url: http://arxiv.org/abs/2106.14448v1
- Date: Mon, 28 Jun 2021 08:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 17:59:19.048365
- Title: R-Drop: Regularized Dropout for Neural Networks
- Title(参考訳): R-Drop: ニューラルネットワークのための正規化ドロップアウト
- Authors: Xiaobo Liang, Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei
Chen, Min Zhang, Tie-Yan Liu
- Abstract要約: ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
- 参考スコア(独自算出の注目度): 99.42791938544012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dropout is a powerful and widely used technique to regularize the training of
deep neural networks. In this paper, we introduce a simple regularization
strategy upon dropout in model training, namely R-Drop, which forces the output
distributions of different sub models generated by dropout to be consistent
with each other. Specifically, for each training sample, R-Drop minimizes the
bidirectional KL-divergence between the output distributions of two sub models
sampled by dropout. Theoretical analysis reveals that R-Drop reduces the
freedom of the model parameters and complements dropout. Experiments on
$\bf{5}$ widely used deep learning tasks ($\bf{18}$ datasets in total),
including neural machine translation, abstractive summarization, language
understanding, language modeling, and image classification, show that R-Drop is
universally effective. In particular, it yields substantial improvements when
applied to fine-tune large-scale pre-trained models, e.g., ViT, RoBERTa-large,
and BART, and achieves state-of-the-art (SOTA) performances with the vanilla
Transformer model on WMT14 English$\to$German translation ($\bf{30.91}$ BLEU)
and WMT14 English$\to$French translation ($\bf{43.95}$ BLEU), even surpassing
models trained with extra large-scale data and expert-designed advanced
variants of Transformer models. Our code is available at
GitHub{\url{https://github.com/dropreg/R-Drop}}.
- Abstract(参考訳): dropoutは、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使われているテクニックである。
本稿では,ドロップアウトによって生成されたサブモデルの出力分布を互いに整合させるモデルトレーニングにおいて,ドロップアウト時の単純な正規化戦略,すなわちR-Dropを導入する。
具体的には、各トレーニングサンプルについて、R-Dropは、ドロップアウトによってサンプリングされた2つのサブモデルの出力分布間の双方向KL偏差を最小化する。
理論的解析によると、R-Dropはモデルパラメータの自由を減らし、ドロップアウトを補完する。
ニューラルネットワークの翻訳、抽象要約、言語理解、言語モデリング、画像分類など、広く使われているディープラーニングタスク(合計で\bf{18}$データセット)に関する実験は、r-dropが普遍的に有効であることを示している。
特に、ViT、RoBERTa-large、BARTなどの大規模事前訓練モデルに適用された場合、相当な改善が得られ、WMT14のバニラトランスフォーマーモデルとWMT14のイングリッシュ$\to$ドイツ語翻訳(\bf{30.91}$ BLEU)、WMT14のイングリッシュ$\to$フランス語翻訳(\bf{43.95}$ BLEU)で、さらに大規模なデータと専門家が設計した先進的なトランスフォーマーモデルで訓練されたモデルよりも優れている。
我々のコードはgithub{\url{https://github.com/dropreg/r-drop}}で入手できる。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Layer-wise Regularized Dropout for Neural Language Models [57.422407462430186]
レイヤワイド正規化ドロップアウト(LR-Drop)は、トランスフォーマーベースの言語モデルのために特別に設計されている。
LR-Dropは、最先端の結果を含む優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-26T07:31:35Z) - BERTIN: Efficient Pre-Training of a Spanish Language Model using
Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。
約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。
私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文 参考訳(メタデータ) (2022-07-14T10:48:42Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - UniDrop: A Simple yet Effective Technique to Improve Transformer without
Extra Cost [110.67392881417777]
トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。
ドロップアウトなどのシンプルな手法で、慎重な設計でモデル性能を大幅に向上させることができます。
具体的には,3種類のドロップアウト手法を統一するUniDropという手法を提案する。
論文 参考訳(メタデータ) (2021-04-11T07:43:19Z) - Learning Light-Weight Translation Models from Deep Transformer [25.386460662408773]
本稿では,深部変圧器モデルを浅部モデルに圧縮するためのグループ置換に基づく知識蒸留手法を提案する。
私達の圧縮されたモデルはBLEUのほとんど損失無しで深いモデルより8X浅いです。
教師モデルをさらに強化するため,サブレイヤをランダムに省略してトレーニングに摂動を導入するスキップサブ層法を提案する。
論文 参考訳(メタデータ) (2020-12-27T05:33:21Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Machine Learning's Dropout Training is Distributionally Robust Optimal [10.937094979510212]
本稿では,一般線形モデルにおけるドロップアウトトレーニングが,期待外の損失保証を提供することを示す。
また、ドロップアウトトレーニングの実装を高速化するために、新しい並列化可能なUnbiased Multi-Level Monte Carloアルゴリズムも提供する。
論文 参考訳(メタデータ) (2020-09-13T23:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。