論文の概要: How to Select One Among All? An Extensive Empirical Study Towards the
Robustness of Knowledge Distillation in Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2109.05696v1
- Date: Mon, 13 Sep 2021 04:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:47:28.301832
- Title: How to Select One Among All? An Extensive Empirical Study Towards the
Robustness of Knowledge Distillation in Natural Language Understanding
- Title(参考訳): どれを選べばいいの?
自然言語理解における知識蒸留のロバスト性に関する実証的研究
- Authors: Tianda Li, Ahmad Rashid, Aref Jafari, Pranav Sharma, Ali Ghodsi, Mehdi
Rezagholizadeh
- Abstract要約: 知識蒸留(KD)は、大きなニューラルネットワークの知識をより小さなものに伝達するのに役立つモデル圧縮アルゴリズムである。
ドメイン内, ドメイン外, 逆検定における様々なKDアルゴリズムの評価を行った。
我々は、2つの有望なアプローチを利用する新しいKDアルゴリズム、Commerced-KDを導入する。
- 参考スコア(独自算出の注目度): 5.915495634053641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a model compression algorithm that helps
transfer the knowledge of a large neural network into a smaller one. Even
though KD has shown promise on a wide range of Natural Language Processing
(NLP) applications, little is understood about how one KD algorithm compares to
another and whether these approaches can be complimentary to each other. In
this work, we evaluate various KD algorithms on in-domain, out-of-domain and
adversarial testing. We propose a framework to assess the adversarial
robustness of multiple KD algorithms. Moreover, we introduce a new KD
algorithm, Combined-KD, which takes advantage of two promising approaches
(better training scheme and more efficient data augmentation). Our extensive
experimental results show that Combined-KD achieves state-of-the-art results on
the GLUE benchmark, out-of-domain generalization, and adversarial robustness
compared to competitive methods.
- Abstract(参考訳): 知識蒸留(KD)は、大きなニューラルネットワークの知識をより小さなものに伝達するのに役立つモデル圧縮アルゴリズムである。
KDは、幅広い自然言語処理(NLP)アプリケーションで約束されているが、あるKDアルゴリズムが他のKDアルゴリズムと比較する方法や、これらのアプローチが互いに補完的であるかどうかについては、ほとんど分かっていない。
本研究では,様々なkdアルゴリズムをドメイン内,ドメイン外,逆テストで評価する。
複数のKDアルゴリズムの逆ロバスト性を評価するためのフレームワークを提案する。
さらに, 2 つの有望な手法(better training scheme とより効率的なデータ拡張)を活用した新しい kd アルゴリズムである combined-kd を導入する。
実験の結果,コンバインド-KDはGLUEベンチマーク,領域外一般化,対角的ロバストネスを競合手法と比較した結果を得た。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation [10.899753512019933]
知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
論文 参考訳(メタデータ) (2023-06-19T03:42:44Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Towards Model Agnostic Federated Learning Using Knowledge Distillation [9.947968358822951]
本研究では,モデル非依存通信プロトコルの理論的研究を開始する。
我々は,2つのエージェントが異なるカーネルを用いてカーネルレグレッションを実行しようとする設定に焦点を当てる。
我々の研究は驚くべき結果をもたらします -- 交互知識蒸留(AKD)を用いる最も自然なアルゴリズムは、過度に強い正則化を課します。
論文 参考訳(メタデータ) (2021-10-28T15:27:51Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。