論文の概要: UniDrop: A Simple yet Effective Technique to Improve Transformer without
Extra Cost
- arxiv url: http://arxiv.org/abs/2104.04946v1
- Date: Sun, 11 Apr 2021 07:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:22:49.828463
- Title: UniDrop: A Simple yet Effective Technique to Improve Transformer without
Extra Cost
- Title(参考訳): unidrop:余計なコストなしでトランスフォーマーを改善するシンプルで効果的な技術
- Authors: Zhen Wu, Lijun Wu, Qi Meng, Yingce Xia, Shufang Xie, Tao Qin, Xinyu
Dai and Tie-Yan Liu
- Abstract要約: トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。
ドロップアウトなどのシンプルな手法で、慎重な設計でモデル性能を大幅に向上させることができます。
具体的には,3種類のドロップアウト手法を統一するUniDropという手法を提案する。
- 参考スコア(独自算出の注目度): 110.67392881417777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architecture achieves great success in abundant natural language
processing tasks. The over-parameterization of the Transformer model has
motivated plenty of works to alleviate its overfitting for superior
performances. With some explorations, we find simple techniques such as
dropout, can greatly boost model performance with a careful design. Therefore,
in this paper, we integrate different dropout techniques into the training of
Transformer models. Specifically, we propose an approach named UniDrop to
unites three different dropout techniques from fine-grain to coarse-grain,
i.e., feature dropout, structure dropout, and data dropout. Theoretically, we
demonstrate that these three dropouts play different roles from regularization
perspectives. Empirically, we conduct experiments on both neural machine
translation and text classification benchmark datasets. Extensive results
indicate that Transformer with UniDrop can achieve around 1.5 BLEU improvement
on IWSLT14 translation tasks, and better accuracy for the classification even
using strong pre-trained RoBERTa as backbone.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。
トランスフォーマーモデルの過小パラメータ化は、優れた性能のために過小評価を緩和する多くの作業の動機となっている。
いくつかの調査では、ドロップアウトのような単純なテクニックが、慎重に設計することで、モデルパフォーマンスを大幅に向上させる可能性がある。
そこで本稿では,トランスフォーマーモデルのトレーニングに異なるドロップアウト技術を統合する。
具体的には、細粒から粗粒までの3つの異なるドロップアウト手法、すなわち特徴ドロップアウト、構造ドロップアウト、データドロップアウトを統一するUniDropという手法を提案する。
理論的には、これらの3つのドロップアウトが正規化の観点から異なる役割を果たすことを示す。
実験では、ニューラルネットワークの翻訳とテキスト分類ベンチマークデータセットの両方について実験を行う。
以上の結果より, UniDrop を用いた Transformer は IWSLT14 翻訳タスクで約1.5 BLEU の改善を達成でき,RoBERTa をバックボーンとして使用しても精度が向上した。
関連論文リスト
- Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Layer-wise Regularized Dropout for Neural Language Models [57.422407462430186]
レイヤワイド正規化ドロップアウト(LR-Drop)は、トランスフォーマーベースの言語モデルのために特別に設計されている。
LR-Dropは、最先端の結果を含む優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-26T07:31:35Z) - R-Drop: Regularized Dropout for Neural Networks [99.42791938544012]
ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
論文 参考訳(メタデータ) (2021-06-28T08:01:26Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。