論文の概要: Meta-KD: A Meta Knowledge Distillation Framework for Language Model
Compression across Domains
- arxiv url: http://arxiv.org/abs/2012.01266v1
- Date: Wed, 2 Dec 2020 15:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:04:16.022430
- Title: Meta-KD: A Meta Knowledge Distillation Framework for Language Model
Compression across Domains
- Title(参考訳): Meta-KD:ドメイン間の言語モデル圧縮のためのメタ知識蒸留フレームワーク
- Authors: Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li, Jun
Huang
- Abstract要約: 本稿ではメタ知識蒸留(Meta-KD)フレームワークを提案する。
具体的には、まずクロスドメイン学習プロセスを活用して、複数のドメイン上でメタ教師を訓練し、メタ教師からの指導で単一ドメインの学生モデルを学習するためのメタ蒸留アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.66937407833244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models have been applied to various NLP tasks with
considerable performance gains. However, the large model sizes, together with
the long inference time, limit the deployment of such models in real-time
applications. Typical approaches consider knowledge distillation to distill
large teacher models into small student models. However, most of these studies
focus on single-domain only, which ignores the transferable knowledge from
other domains. We argue that training a teacher with transferable knowledge
digested across domains can achieve better generalization capability to help
knowledge distillation. To this end, we propose a Meta-Knowledge Distillation
(Meta-KD) framework to build a meta-teacher model that captures transferable
knowledge across domains inspired by meta-learning and use it to pass knowledge
to students. Specifically, we first leverage a cross-domain learning process to
train the meta-teacher on multiple domains, and then propose a
meta-distillation algorithm to learn single-domain student models with guidance
from the meta-teacher. Experiments on two public multi-domain NLP tasks show
the effectiveness and superiority of the proposed Meta-KD framework. We also
demonstrate the capability of Meta-KD in both few-shot and zero-shot learning
settings.
- Abstract(参考訳): 事前訓練された言語モデルは、様々なNLPタスクに適用され、性能がかなり向上した。
しかし、大きなモデルサイズと長い推論時間によって、そのようなモデルのリアルタイムアプリケーションへのデプロイが制限される。
典型的なアプローチは、大きな教師モデルを小さな学生モデルに蒸留する知識蒸留を考える。
しかし、これらの研究のほとんどは、他の領域から移行可能な知識を無視する単一領域のみに焦点を当てている。
ドメイン間で消化可能な知識を持つ教師の訓練は、知識の蒸留を助けるためのより良い一般化能力を達成することができると論じている。
この目的のために,メタ学習にインスパイアされたドメイン間で伝達可能な知識を捕捉し,学生に知識を伝えるメタ教師モデルを構築するメタ知識蒸留(Meta-KD)フレームワークを提案する。
具体的には、まずクロスドメイン学習プロセスを活用して、複数のドメイン上でメタ教師を訓練し、メタ教師からの指導で単一ドメイン学生モデルを学習するためのメタ蒸留アルゴリズムを提案する。
2つのパブリックマルチドメインNLPタスクの実験は、提案したMeta-KDフレームワークの有効性と優位性を示している。
また,マルチショットおよびゼロショットの学習環境においてメタKDの能力を示す。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Improving the Generalization of Meta-learning on Unseen Domains via
Adversarial Shift [3.1219977244201056]
ドメインシフトをシミュレートし、擬似タスクを生成する方法を学ぶためのモデルに依存しないシフト層を提案する。
擬似的なタスクに基づいて、メタ学習モデルはクロスドメインメタ知識を学習することができる。
論文 参考訳(メタデータ) (2021-07-23T07:29:30Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Meta Learning for Knowledge Distillation [12.716258111815312]
教師ネットワークは、学生ネットワークにより良い知識を伝達することを学ぶことができることを示す。
内部学習者とメタ学習者の整合性を改善するためのパイロット更新機構を導入する。
論文 参考訳(メタデータ) (2021-06-08T17:59:03Z) - Learning to Generalize Unseen Domains via Memory-based Multi-Source
Meta-Learning for Person Re-Identification [59.326456778057384]
本稿では,メモリベースのマルチソースメタラーニングフレームワークを提案する。
また,メタテスト機能を多様化するメタバッチ正規化層(MetaBN)を提案する。
実験により、M$3$Lは、目に見えない領域に対するモデルの一般化能力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2020-12-01T11:38:16Z) - Revisiting Meta-Learning as Supervised Learning [69.2067288158133]
メタラーニングと従来の教師付き学習の関連性を再考し,強化することで,原則的,統一的なフレームワークの提供を目指す。
タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。
この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。
論文 参考訳(メタデータ) (2020-02-03T06:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。