論文の概要: ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic
Distillation Generalization
- arxiv url: http://arxiv.org/abs/2301.03416v1
- Date: Mon, 9 Jan 2023 15:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:41:41.887497
- Title: ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic
Distillation Generalization
- Title(参考訳): ERNIE 3.0: タスク非依存の蒸留一般化を改善するための非常に単純な方法
- Authors: Weixin Liu, Xuyi Chen, Jiaxiang Liu, Shikun Feng, Yu Sun, Hao Tian,
Hua Wu
- Abstract要約: タスクに依存しない知識蒸留は、リソース制約のあるシナリオにおいて、大きな事前訓練された言語モデルをデプロイする問題に対処しようとする。
我々は,タスク非依存蒸留におけるマルチタスク学習を活用して,結果の一般化を推し進めることができることを示す。
- 参考スコア(独自算出の注目度): 36.338614215561805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-agnostic knowledge distillation attempts to address the problem of
deploying large pretrained language model in resource-constrained scenarios by
compressing a large pretrained model called teacher into a smaller one called
student such that the student can be directly finetuned on downstream tasks and
retains comparable performance. However, we empirically find that there is a
generalization gap between the student and the teacher in existing methods. In
this work, we show that we can leverage multi-task learning in task-agnostic
distillation to advance the generalization of the resulted student. In
particular, we propose Multi-task Infused Task-agnostic Knowledge Distillation
(MITKD). We first enhance the teacher by multi-task training it on multiple
downstream tasks and then perform distillation to produce the student.
Experimental results demonstrate that our method yields a student with much
better generalization, significantly outperforms existing baselines, and
establishes a new state-of-the-art result on in-domain, out-domain, and
low-resource datasets in the setting of task-agnostic distillation. Moreover,
our method even exceeds an 8x larger BERT$_{\text{Base}}$ on SQuAD and four
GLUE tasks. In addition, by combining ERNIE 3.0, our method achieves
state-of-the-art results on 10 Chinese datasets.
- Abstract(参考訳): タスクに依存しない知識蒸留は、教師と呼ばれる大きな事前学習されたモデルを生徒と呼ばれる小さなモデルに圧縮し、生徒が下流のタスクを直接微調整し、同等のパフォーマンスを維持することで、リソース制約のあるシナリオに大規模な事前訓練済み言語モデルを展開する問題に対処する。
しかし,既存の手法では,生徒と教師の間に一般化のギャップがあることを実証的に見出した。
本研究では, タスク非依存蒸留におけるマルチタスク学習を活用し, 学生の一般化を促進できることを示す。
特に,Multi-task Infused Task-Agnostic Knowledge Distillation (MITKD)を提案する。
まず、複数のダウンストリームタスクでマルチタスクのトレーニングを行い、次に蒸留を行い、生徒を育成する。
実験の結果,本手法は学生の汎用性が向上し,既存のベースラインを著しく上回っており,タスクに依存しない蒸留において,in-domain,out-domain,low-resourceのデータセット上で新たな最先端結果が得られた。
さらに、このメソッドはsquadと4つのglueタスクで8倍大きいbert$_{\text{base}}$を超えることさえある。
さらに,ernie 3.0を組み合わせることで,中国の10のデータセットで最新の結果が得られる。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。