論文の概要: Efficient pre-training objectives for Transformers
- arxiv url: http://arxiv.org/abs/2104.09694v1
- Date: Tue, 20 Apr 2021 00:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 02:34:27.004964
- Title: Efficient pre-training objectives for Transformers
- Title(参考訳): 変圧器の高効率予習目標
- Authors: Luca Di Liello, Matteo Gabburo, Alessandro Moschitti
- Abstract要約: 本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
- 参考スコア(独自算出の注目度): 84.64393460397471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture deeply changed the natural language processing,
outperforming all previous state-of-the-art models. However, well-known
Transformer models like BERT, RoBERTa, and GPT-2 require a huge compute budget
to create a high quality contextualised representation. In this paper, we study
several efficient pre-training objectives for Transformers-based models. By
testing these objectives on different tasks, we determine which of the ELECTRA
model's new features is the most relevant. We confirm that Transformers
pre-training is improved when the input does not contain masked tokens and that
the usage of the whole output to compute the loss reduces training time.
Moreover, inspired by ELECTRA, we study a model composed of two blocks; a
discriminator and a simple generator based on a statistical model with no
impact on the computational performances. Besides, we prove that eliminating
the MASK token and considering the whole output during the loss computation are
essential choices to improve performance. Furthermore, we show that it is
possible to efficiently train BERT-like models using a discriminative approach
as in ELECTRA but without a complex generator, which is expensive. Finally, we
show that ELECTRA benefits heavily from a state-of-the-art hyper-parameters
search.
- Abstract(参考訳): Transformerアーキテクチャは自然言語処理を深く変え、これまでの最先端モデルよりも優れていた。
しかし、BERT、RoBERTa、GPT-2のようなよく知られたトランスフォーマーモデルは、高品質な文脈表現を作成するために膨大な計算予算を必要とする。
本稿では,トランスフォーマーモデルのための高効率事前学習目標について検討する。
これらの目的を異なるタスクでテストすることにより、ELECTRAモデルの新機能のどれが最も重要かを決定する。
入力にマスク付きトークンを含まない場合,トランスフォーマーの事前学習が向上し,損失を計算するための出力全体の使用がトレーニング時間を短縮することを確認した。
さらに,electraに触発されて,判別器と単純な生成器という,計算性能に影響を与えない統計モデルに基づく2つのブロックからなるモデルについて検討した。
さらに,MASKトークンを排除し,損失計算における全出力を考慮することが,性能向上に不可欠であることを示す。
さらに,エレクトラのように識別的アプローチを用いて,複雑な生成器を使わずに効率的にbert様モデルを訓練できることを示す。
最後に、ELECTRAは最先端のハイパーパラメーター探索の恩恵が大きいことを示す。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Effective Pre-Training Objectives for Transformer-based Autoencoders [97.99741848756302]
トランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。
共通の目的の機能を組み合わせて、新しい効果的な事前学習アプローチを作成します。
論文 参考訳(メタデータ) (2022-10-24T18:39:44Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。