論文の概要: Why Can You Lay Off Heads? Investigating How BERT Heads Transfer
- arxiv url: http://arxiv.org/abs/2106.07137v1
- Date: Mon, 14 Jun 2021 02:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:12:20.101938
- Title: Why Can You Lay Off Heads? Investigating How BERT Heads Transfer
- Title(参考訳): なぜ首を落とせるのか?
BERTヘッドの転送方法の調査
- Authors: Ting-Rui Chiang, Yun-Nung Chen
- Abstract要約: 蒸留の主な目的は、ダウンストリームタスクで微調整できるタスク非依存の事前訓練モデルを作ることであり、フルサイズのバージョンを微調整する必要はない。
蒸留の進展にもかかわらず、どの程度、どのような理由から、蒸留からタスク非依存モデルを作成することができるかについては、十分に研究されていない。
本研究は, 今後の蒸留プロセスの指針となる蒸留時の許容推算分析に焦点をあてる。
- 参考スコア(独自算出の注目度): 37.9520341259181
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The huge size of the widely used BERT family models has led to recent efforts
about model distillation. The main goal of distillation is to create a
task-agnostic pre-trained model that can be fine-tuned on downstream tasks
without fine-tuning its full-sized version. Despite the progress of
distillation, to what degree and for what reason a task-agnostic model can be
created from distillation has not been well studied. Also, the mechanisms
behind transfer learning of those BERT models are not well investigated either.
Therefore, this work focuses on analyzing the acceptable deduction when
distillation for guiding the future distillation procedure. Specifically, we
first inspect the prunability of the Transformer heads in RoBERTa and ALBERT
using their head importance estimation proposed by Michel et al. (2019), and
then check the coherence of the important heads between the pre-trained task
and downstream tasks. Hence, the acceptable deduction of performance on the
pre-trained task when distilling a model can be derived from the results, and
we further compare the behavior of the pruned model before and after
fine-tuning. Our studies provide guidance for future directions about BERT
family model distillation.
- Abstract(参考訳): 広く使われているBERTファミリーモデルの巨大なサイズは、近年のモデル蒸留への取り組みにつながっている。
蒸留の主な目的は、ダウンストリームタスクで微調整できるタスクに依存しない事前訓練モデルを作ることである。
蒸留の進展にもかかわらず、どの程度や理由から、蒸留からタスク非依存モデルを作成することができるかは、十分に研究されていない。
また,これらのBERTモデルの伝達学習のメカニズムについてもよく研究されていない。
そこで本研究は, 今後の蒸留法を導くため, 蒸留時の許容量の分析に重点を置いている。
具体的には、まず、RoBERTaおよびALBERTにおけるトランスフォーマーヘッドの刈取性について、Michelらの提案した頭部重み付け推定を用いて検討する。
(2019)、事前訓練されたタスクと下流タスクの間の重要なヘッドのコヒーレンスをチェックする。
したがって、モデル蒸留時の予め訓練したタスクにおける性能の許容的な推論を結果から導き出すことができ、さらに微調整前後における刈り込みモデルの挙動を比較できる。
本研究は,BERTファミリーモデル蒸留の今後の方向性に関するガイダンスを提供する。
関連論文リスト
- Confidence Preservation Property in Knowledge Distillation Abstractions [2.9370710299422598]
ソーシャルメディアプラットフォームは、投稿やコメントの有害な内容を検出することによって悪意ある活動を防ぐ。
感情分析とコンテンツ理解のために、大規模なディープニューラルネットワークモデルを採用している。
BERTのようないくつかのモデルは複雑で、多くのパラメータを持ち、運用やメンテナンスに費用がかかる。
産業専門家は知識蒸留圧縮技術を用いて、蒸留されたモデルを訓練し、元のモデルの分類挙動を再現する。
論文 参考訳(メタデータ) (2024-01-21T01:37:25Z) - A Study on Knowledge Distillation from Weak Teacher for Scaling Up
Pre-trained Language Models [104.64899255277443]
弱教師 (DWT) による蒸留は、より小さく弱い教師モデルからより大きな学生モデルへ知識を伝達し、その性能を向上させる方法である。
本研究では,視覚領域や伝統的な知識蒸留と異なり,DWTを最適化するための3つの重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-26T13:24:49Z) - Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文 参考訳(メタデータ) (2023-02-28T17:13:14Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation [17.62309851473892]
本稿では,事前学習したBERTを簡単なLSTMモデルに抽出できる文表現近似指向蒸留フレームワークを提案する。
我々のモデルは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
GLUEベンチマークによる複数のNLPタスクの実験結果から,本手法が他のタスク固有蒸留法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-07T03:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。