論文の概要: Towards Zero-Shot Knowledge Distillation for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2012.15495v1
- Date: Thu, 31 Dec 2020 08:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:25:35.185016
- Title: Towards Zero-Shot Knowledge Distillation for Natural Language Processing
- Title(参考訳): 自然言語処理のためのゼロショット知識蒸留
- Authors: Ahmad Rashid, Vasileios Lioutas, Abbas Ghaddar and Mehdi
Rezagholizadeh
- Abstract要約: 知識蒸留(KD)は、さまざまなディープラーニングベースの自然言語処理(NLP)ソリューションのモデル圧縮に使用される一般的なアルゴリズムです。
通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。
私たちは、NLPのためのゼロショット知識蒸留の最初の作品である私たちの知識のベストを提示します。そこでは、学生はタスク固有のデータなしではるかに大きな教師から学びます。
- 参考スコア(独自算出の注目度): 9.223848704267088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a common knowledge transfer algorithm used for
model compression across a variety of deep learning based natural language
processing (NLP) solutions. In its regular manifestations, KD requires access
to the teacher's training data for knowledge transfer to the student network.
However, privacy concerns, data regulations and proprietary reasons may prevent
access to such data. We present, to the best of our knowledge, the first work
on Zero-Shot Knowledge Distillation for NLP, where the student learns from the
much larger teacher without any task specific data. Our solution combines out
of domain data and adversarial training to learn the teacher's output
distribution. We investigate six tasks from the GLUE benchmark and demonstrate
that we can achieve between 75% and 92% of the teacher's classification score
(accuracy or F1) while compressing the model 30 times.
- Abstract(参考訳): 知識蒸留(KD)は、様々なディープラーニングベースの自然言語処理(NLP)ソリューションにおけるモデル圧縮に使用される一般的な知識伝達アルゴリズムである。
通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。
しかし、プライバシの懸念、データ規制、プロプライエタリな理由は、そのようなデータへのアクセスを妨げる可能性がある。
我々は,NLPのためのゼロショット知識蒸留(Zero-Shot Knowledge Distillation for NLP)に関する最初の研究を行い,より大規模な教師からタスク固有のデータなしで学習した。
本ソリューションは,教師の出力分布を学習するために,ドメインデータと対人訓練を併用する。
GLUEベンチマークの6つの課題について検討し、モデルを30回圧縮しながら教師の分類スコア(精度またはF1)の75%から92%を達成できることを示した。
関連論文リスト
- AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge Distillation [33.208860361882095]
データフリー知識蒸留法(DFKD)が直接解法として登場した。
しかし、DFKDから派生したモデルを現実のアプリケーションに適用するだけで、性能が著しく低下する。
本研究では,教師の適切な知識を選択的に伝達する簡易かつ効果的なAuG-KDを提案する。
論文 参考訳(メタデータ) (2024-03-11T03:34:14Z) - Talking Models: Distill Pre-trained Knowledge to Downstream Models via
Interactive Communication [25.653517213641575]
我々は、下流の課題の学生が事前学習された基礎モデルから効果的に学習するのに役立つ対話型コミュニケーションプロセスを開発する。
私たちのデザインは、学生のニーズを満たす方法で知識を説明することができる教師から、人間が学ぶ方法にインスピレーションを受けています。
論文 参考訳(メタデータ) (2023-10-04T22:22:21Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。