論文の概要: Towards Understanding Label Regularization for Fine-tuning Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2205.12428v1
- Date: Wed, 25 May 2022 01:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:45:58.227227
- Title: Towards Understanding Label Regularization for Fine-tuning Pre-trained
Language Models
- Title(参考訳): 微調整事前学習言語モデルのためのラベル規則化の理解に向けて
- Authors: Ivan Kobyzev, Aref Jafari, Mehdi Rezagholizadeh, Tianda Li, Alan
Do-Omri, Peng Lu, Ali Ghodsi, Pascal Poupart
- Abstract要約: コンピュータビジョン文学では、KDがラベル正規化技術であることを示すことにより、教師ネットワークの必要性を精査する。
この研究は、異なるラベル正規化手法の研究と、より小さなPLM学生ネットワークを微調整するための教師ラベルが実際に必要かどうかに関するものである。
- 参考スコア(独自算出の注目度): 26.525537961062824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a prominent neural model compression technique
which heavily relies on teacher network predictions to guide the training of a
student model. Considering the ever-growing size of pre-trained language models
(PLMs), KD is often adopted in many NLP tasks involving PLMs. However, it is
evident that in KD, deploying the teacher network during training adds to the
memory and computational requirements of training. In the computer vision
literature, the necessity of the teacher network is put under scrutiny by
showing that KD is a label regularization technique that can be replaced with
lighter teacher-free variants such as the label-smoothing technique. However,
to the best of our knowledge, this issue is not investigated in NLP. Therefore,
this work concerns studying different label regularization techniques and
whether we actually need the teacher labels to fine-tune smaller PLM student
networks on downstream tasks. In this regard, we did a comprehensive set of
experiments on different PLMs such as BERT, RoBERTa, and GPT with more than 600
distinct trials and ran each configuration five times. This investigation led
to a surprising observation that KD and other label regularization techniques
do not play any meaningful role over regular fine-tuning when the student model
is pre-trained. We further explore this phenomenon in different settings of NLP
and computer vision tasks and demonstrate that pre-training itself acts as a
kind of regularization, and additional label regularization is unnecessary.
- Abstract(参考訳): 知識蒸留(KD)は、教師のネットワーク予測に大きく依存し、学生モデルのトレーニングを指導する顕著なニューラルモデル圧縮技術である。
プレトレーニング言語モデル (PLM) の長期化を考えると、KD は PLM を含む多くの NLP タスクでよく採用されている。
しかしながら、KDでは、トレーニング中に教師ネットワークをデプロイすることで、トレーニングのメモリと計算の要求が増すことは明らかである。
コンピュータビジョン文献では、KDがラベル正規化技術であり、ラベル平滑化技術のようなより軽い教師なしの変種に置き換えることができることを示すことにより、教師ネットワークの必要性を精査する。
しかしながら、我々の知る限りでは、この問題はNLPでは調査されていない。
そこで本研究では,異なるラベル正規化手法と,より小さなplm学生ネットワークを下流タスクに微調整するための教師ラベルが必要であるかどうかについて検討する。
本研究では,BERT,RoBERTa,GPTなどの異なるPLMの総合的な実験を行い,600以上の異なる試行を行い,各構成を5回実施した。
この調査は、学生モデルが事前訓練された場合、KDや他のラベル正規化技術が通常の微調整よりも意味のある役割を果たさないという驚くべき観察につながった。
さらに、NLPとコンピュータビジョンタスクの異なる設定でこの現象を探求し、事前学習自体が正規化の一種であり、追加のラベル正規化は不要であることを示す。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation [60.657065293413716]
本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分である。
数発の試薬で抽出した学生モデルは、教師よりも一般的に一般化できるという発見を提示する。
論文 参考訳(メタデータ) (2023-11-15T01:28:28Z) - A Systematic Study of Knowledge Distillation for Natural Language
Generation with Pseudo-Target Training [32.87731973236423]
我々は,小学生が大きな教師モデルを模倣することを学ぶ,知識蒸留(KD)技術に注目した。
我々は,現実的な仮定の下で,様々なNLGタスクに対するタスク固有KD手法の体系的研究を行う。
教師と学生の両方が生成する複数のPTに対して単語レベルKDを適用するジョイント・ティーチング法を提案する。
論文 参考訳(メタデータ) (2023-05-03T10:49:38Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks [27.533162215182422]
エッジデバイスへの展開のために、ディープニューラルネットワーク(QDNN)の量子化が活発に研究されている。
近年の研究では、量子化されたネットワークの性能を向上させるために知識蒸留(KD)法が採用されている。
本研究では,QDNN(SPEQ)のためのアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-09-30T08:38:37Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。