論文の概要: Knowledge Distillation Transfer Sets and their Impact on Downstream NLU
Tasks
- arxiv url: http://arxiv.org/abs/2210.04834v1
- Date: Mon, 10 Oct 2022 16:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:40:19.571609
- Title: Knowledge Distillation Transfer Sets and their Impact on Downstream NLU
Tasks
- Title(参考訳): 知識蒸留トランスファーセットと下流NLU課題への影響
- Authors: Charith Peris, Lizhen Tan, Thomas Gueudre, Turan Gojayev, Vivi Wei,
Gokmen Oz
- Abstract要約: 教師-学生の知識蒸留は、今日の一般的な大きな言語モデルを管理可能なサイズに圧縮する一般的な技術である。
しかし、教師の事前訓練に用いられる一般的なコーパスと、下流ターゲットドメインに関連するコーパスは、しばしば著しく異なる。
本研究では,ドメイン分類(DC)とICNER(Intent Classification/Named Entity Recognition)を用いて,このトレードオフを下流タスクとして検討する。
- 参考スコア(独自算出の注目度): 1.0982841428520955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teacher-student knowledge distillation is a popular technique for compressing
today's prevailing large language models into manageable sizes that fit
low-latency downstream applications. Both the teacher and the choice of
transfer set used for distillation are crucial ingredients in creating a high
quality student. Yet, the generic corpora used to pretrain the teacher and the
corpora associated with the downstream target domain are often significantly
different, which raises a natural question: should the student be distilled
over the generic corpora, so as to learn from high-quality teacher predictions,
or over the downstream task corpora to align with finetuning? Our study
investigates this trade-off using Domain Classification (DC) and Intent
Classification/Named Entity Recognition (ICNER) as downstream tasks. We distill
several multilingual students from a larger multilingual LM with varying
proportions of generic and task-specific datasets, and report their performance
after finetuning on DC and ICNER. We observe significant improvements across
tasks and test sets when only task-specific corpora is used. We also report on
how the impact of adding task-specific data to the transfer set correlates with
the similarity between generic and task-specific data. Our results clearly
indicate that, while distillation from a generic LM benefits downstream tasks,
students learn better using target domain data even if it comes at the price of
noisier teacher predictions. In other words, target domain data still trumps
teacher knowledge.
- Abstract(参考訳): 教師の知識蒸留は、今日の一般的な大きな言語モデルを低レイテンシダウンストリームアプリケーションに適合する管理可能なサイズに圧縮する一般的な手法である。
教師と蒸留に使用するトランスファーセットの選択は、高品質の学生を作る上で重要な要素である。
しかし、教師と下流ターゲットドメインに関連するコーパスの事前訓練に使用されるジェネリックコーパスは、しばしば大きな違いがあるため、学生をジェネリックコーパス上で蒸留し、高品質の教師予測から学ぶか、下流タスクコーパスで微調整と整合させるかという自然な疑問が生じる。
本研究では,ドメイン分類(DC)とICNER(Intent Classification/Named Entity Recognition)を下流タスクとして利用する。
汎用およびタスク固有のデータセットの比率が異なる大規模多言語LMから複数の学生を蒸留し,DCとICNERを微調整した後にその性能を報告する。
タスク固有のコーパスのみを使用する場合、タスクとテストセット間で大幅な改善が観察される。
また,タスク特化データとタスク特化データとの類似性から,タスク特化データの追加の影響についても報告する。
以上の結果から,総称lmの蒸留はダウンストリームタスクに有利であるが,noisier teacher predictionsの値でも,対象ドメインデータを用いた学習が向上することが示唆された。
言い換えれば、ターゲットドメインデータはまだ教師の知識を損なう。
関連論文リスト
- Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - TAKT: Target-Aware Knowledge Transfer for Whole Slide Image Classification [46.803231708918624]
本稿では,教師-学生パラダイムを取り入れた目標認識型知識伝達フレームワークを提案する。
我々のフレームワークは、教師モデルがソースとターゲットドメインから共通知識を学習することを可能にする。
本手法は,各種データセット上での知識伝達手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-10T08:29:35Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Teacher-Student Consistency For Multi-Source Domain Adaptation [28.576613317253035]
マルチソースドメイン適応(MSDA)では、モデルは複数のソースドメインのサンプルに基づいてトレーニングされ、異なるターゲットドメインの推論に使用される。
本稿では,これらの問題を緩和する新手法であるMulti-source Students Teacher (MUST)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:17:40Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。