論文の概要: RobBERTje: a Distilled Dutch BERT Model
- arxiv url: http://arxiv.org/abs/2204.13511v1
- Date: Thu, 28 Apr 2022 14:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:58:43.777250
- Title: RobBERTje: a Distilled Dutch BERT Model
- Title(参考訳): RobBERTje: 蒸留されたオランダのBERTモデル
- Authors: Pieter Delobelle, Thomas Winters, Bettina Berendt
- Abstract要約: 我々は、最先端のオランダのRobBERTモデルの蒸留版を作成し、それをRobBERTjeと呼ぶ。
その結果、シャッフルデータセットと非シャッフルデータセットを用いたモデルの性能は、ほとんどのタスクで類似していることがわかった。
また, 蒸留したモデルでは, 教師モデルよりも男女ステレオタイプ偏見が低いことがわかった。
- 参考スコア(独自算出の注目度): 9.797319790710711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large-scale language models such as BERT have gained a lot of
attention thanks to their outstanding performance on a wide range of natural
language tasks. However, due to their large number of parameters, they are
resource-intensive both to deploy and to fine-tune. Researchers have created
several methods for distilling language models into smaller ones to increase
efficiency, with a small performance trade-off. In this paper, we create
several different distilled versions of the state-of-the-art Dutch RobBERT
model and call them RobBERTje. The distillations differ in their distillation
corpus, namely whether or not they are shuffled and whether they are merged
with subsequent sentences. We found that the performance of the models using
the shuffled versus non-shuffled datasets is similar for most tasks and that
randomly merging subsequent sentences in a corpus creates models that train
faster and perform better on tasks with long sequences. Upon comparing
distillation architectures, we found that the larger DistilBERT architecture
worked significantly better than the Bort hyperparametrization. Interestingly,
we also found that the distilled models exhibit less gender-stereotypical bias
than its teacher model. Since smaller architectures decrease the time to
fine-tune, these models allow for more efficient training and more lightweight
deployment of many Dutch downstream language tasks.
- Abstract(参考訳): BERTのような事前訓練された大規模言語モデルは、幅広い自然言語タスクにおける優れた性能のおかげで、多くの注目を集めている。
しかしながら、パラメータの数が多いため、デプロイと微調整の両方においてリソース集約的です。
研究者は、性能のトレードオフを小さくして効率を上げるために、言語モデルをより小さなものに蒸留する方法をいくつか作成した。
本稿では,最先端のオランダのRobBERTモデルの蒸留版を複数作成し,それをRobBERTjeと呼ぶ。
蒸留コーパスは蒸留コーパスと異なり、蒸留コーパスがシャッフルされるか、後続文とマージされるかという違いがある。
シャッフルと非シャッフルのデータセットを使ったモデルのパフォーマンスは、ほとんどのタスクで似ており、後続の文をコーパスにランダムにマージすることで、より高速にトレーニングし、長いシーケンスを持つタスクでより良いパフォーマンスを発揮するモデルが作成できることがわかった。
蒸留アーキテクチャを比較すると,より大きな DistilBERT アーキテクチャは Bort ハイパーパラメトリゼーションよりもかなりうまく機能したことがわかった。
興味深いことに, 蒸留したモデルでは, 教師モデルに比べて, ジェンダー・ステレオタイプバイアスが低かった。
より小さなアーキテクチャは微調整の時間を短縮するので、これらのモデルはより効率的なトレーニングと、オランダの下流言語タスクのより軽量なデプロイを可能にします。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - XtremeDistil: Multi-stage Distillation for Massive Multilingual Models [19.393371230300225]
我々は多言語名前付きエンティティ認識(NER)に着目して知識蒸留を研究する。
本稿では,教師の内部表現を教師のアーキテクチャに依存しない段階的最適化手法を提案する。
提案手法は,NER 41言語に対する F1 スコアの95% を保ちながら,パラメータの35倍,バッチ推論の51倍のレイテンシで MBERT ライクな教師モデルを大幅に圧縮することを示した。
論文 参考訳(メタデータ) (2020-04-12T19:49:27Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。