論文の概要: Towards Zero-Shot Knowledge Distillation for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2012.15495v1
- Date: Thu, 31 Dec 2020 08:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:25:35.185016
- Title: Towards Zero-Shot Knowledge Distillation for Natural Language Processing
- Title(参考訳): 自然言語処理のためのゼロショット知識蒸留
- Authors: Ahmad Rashid, Vasileios Lioutas, Abbas Ghaddar and Mehdi
Rezagholizadeh
- Abstract要約: 知識蒸留(KD)は、さまざまなディープラーニングベースの自然言語処理(NLP)ソリューションのモデル圧縮に使用される一般的なアルゴリズムです。
通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。
私たちは、NLPのためのゼロショット知識蒸留の最初の作品である私たちの知識のベストを提示します。そこでは、学生はタスク固有のデータなしではるかに大きな教師から学びます。
- 参考スコア(独自算出の注目度): 9.223848704267088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a common knowledge transfer algorithm used for
model compression across a variety of deep learning based natural language
processing (NLP) solutions. In its regular manifestations, KD requires access
to the teacher's training data for knowledge transfer to the student network.
However, privacy concerns, data regulations and proprietary reasons may prevent
access to such data. We present, to the best of our knowledge, the first work
on Zero-Shot Knowledge Distillation for NLP, where the student learns from the
much larger teacher without any task specific data. Our solution combines out
of domain data and adversarial training to learn the teacher's output
distribution. We investigate six tasks from the GLUE benchmark and demonstrate
that we can achieve between 75% and 92% of the teacher's classification score
(accuracy or F1) while compressing the model 30 times.
- Abstract(参考訳): 知識蒸留(KD)は、様々なディープラーニングベースの自然言語処理(NLP)ソリューションにおけるモデル圧縮に使用される一般的な知識伝達アルゴリズムである。
通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。
しかし、プライバシの懸念、データ規制、プロプライエタリな理由は、そのようなデータへのアクセスを妨げる可能性がある。
我々は,NLPのためのゼロショット知識蒸留(Zero-Shot Knowledge Distillation for NLP)に関する最初の研究を行い,より大規模な教師からタスク固有のデータなしで学習した。
本ソリューションは,教師の出力分布を学習するために,ドメインデータと対人訓練を併用する。
GLUEベンチマークの6つの課題について検討し、モデルを30回圧縮しながら教師の分類スコア(精度またはF1)の75%から92%を達成できることを示した。
関連論文リスト
- Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合する動的事前知識(DPK)を提案する。
私たちのメソッドは、単にターゲットではなく、教師の特徴を入力として取ります。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Data-Free Knowledge Transfer: A Survey [13.335198869928167]
知識蒸留(KD)とドメイン適応(DA)が提案され,研究のハイライトとなっている。
どちらも、元のトレーニングデータを持つ十分に訓練されたモデルから有用な情報を転送することを目的としている。
近年,データフリーな知識伝達パラダイムが注目されている。
論文 参考訳(メタデータ) (2021-12-31T03:39:42Z) - Beyond Classification: Knowledge Distillation using Multi-Object
Impressions [17.214664783818687]
知識蒸留(KD)は、複雑なネットワーク(Teacher)からより小さなネットワーク(Student)へ知識を伝達するために、訓練データを転送セットとして利用する。
いくつかの研究は、データプライバシや感度に関する懸念から、トレーニングデータが利用できない多くのシナリオを特定している。
トレーニングデータとその統計に関する知識がゼロのオブジェクト検出のためのKD」という、はるかに難しい問題を初めて解決しました。
論文 参考訳(メタデータ) (2021-10-27T06:59:27Z) - Zero-Shot Knowledge Distillation from a Decision-Based Black-Box Model [8.87104231451079]
知識蒸留は、ディープニューラルネットワークアクセラレーションのアプローチとして成功している。
伝統的に、KDは通常、伝達された知識を得るために、トレーニングサンプルとホワイトボックスの教師のパラメータへのアクセスに依存している。
本稿では,意思決定に基づくブラックボックス(DB3)知識蒸留の概念を提案する。
論文 参考訳(メタデータ) (2021-06-07T02:46:31Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。