論文の概要: KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2105.04181v1
- Date: Mon, 10 May 2021 08:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:52:55.228990
- Title: KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation
- Title(参考訳): KDExplainer:知識蒸留を説明するタスク指向の注意モデル
- Authors: Mengqi Xue, Jie Song, Xinchao Wang, Ying Chen, Xingen Wang, Mingli
Song
- Abstract要約: KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
- 参考スコア(独自算出の注目度): 59.061835562314066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has recently emerged as an efficacious scheme for
learning compact deep neural networks (DNNs). Despite the promising results
achieved, the rationale that interprets the behavior of KD has yet remained
largely understudied. In this paper, we introduce a novel task-oriented
attention model, termed as KDExplainer, to shed light on the working mechanism
underlying the vanilla KD. At the heart of KDExplainer is a Hierarchical
Mixture of Experts (HME), in which a multi-class classification is reformulated
as a multi-task binary one. Through distilling knowledge from a free-form
pre-trained DNN to KDExplainer, we observe that KD implicitly modulates the
knowledge conflicts between different subtasks, and in reality has much more to
offer than label smoothing. Based on such findings, we further introduce a
portable tool, dubbed as virtual attention module (VAM), that can be seamlessly
integrated with various DNNs to enhance their performance under KD.
Experimental results demonstrate that with a negligible additional cost,
student models equipped with VAM consistently outperform their non-VAM
counterparts across different benchmarks. Furthermore, when combined with other
KD methods, VAM remains competent in promoting results, even though it is only
motivated by vanilla KD.
- Abstract(参考訳): 知識蒸留(KD)は、最近、コンパクトディープニューラルネットワーク(DNN)を学習するための効果的なスキームとして登場した。
有望な結果が得られたにも拘わらず、KDの振る舞いを解釈する根拠はまだほとんど検討されていない。
本稿では,KDExplainerと呼ばれる新しいタスク指向のアテンションモデルを紹介し,バニラKDを支える動作機構について光を当てる。
kdexplainerの核心には、階層的な専門家の混合(hme)があり、マルチクラス分類をマルチタスクバイナリに再構成する。
自由形式のDNNからKDExplainerへの知識の抽出を通じて、KDは異なるサブタスク間の知識衝突を暗黙的に変調し、実際にはラベルスムース化よりもずっと多くのものを提供する。
そこで本研究では,仮想アテンションモジュール(Virtual attention Module, VAM)と呼ばれる,様々なDNNとシームレスに統合して,KD下での性能を向上させるポータブルツールについても紹介する。
実験の結果,vamを搭載した学生モデルが,評価値の異なる非vamモデルよりも高い値を示した。
さらに、他のKD法と組み合わせた場合、VAMはバニラKDによってのみ動機付けられているにもかかわらず、結果の促進に長けている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation [10.899753512019933]
知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
論文 参考訳(メタデータ) (2023-06-19T03:42:44Z) - Continuation KD: Improved Knowledge Distillation through the Lens of
Continuation Optimization [29.113990037893597]
知識蒸留(KD)は、より大規模なモデル(教師)から知識を伝達することで、小さなモデル(学生)のパフォーマンスを向上させる自然言語理解(NLU)タスクに広く用いられている。
既存のKDテクニックは、教師の出力のノイズを軽減するものではない。
従来の手法と比較して,これらの問題に対処する新しいKD手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T16:00:20Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。