論文の概要: Learning Interpretation with Explainable Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2111.06945v1
- Date: Fri, 12 Nov 2021 21:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 04:29:07.692470
- Title: Learning Interpretation with Explainable Knowledge Distillation
- Title(参考訳): 説明可能な知識蒸留による学習解釈
- Authors: Raed Alharbi, Minh N. Vu, My T. Thai
- Abstract要約: 近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。
そこで本研究では,教師モデルから学生モデルに説明文の情報を伝達する,XDistillationと呼ばれる新しい知識蒸留モデルを提案する。
実験の結果,XDistillation で訓練したモデルは,予測精度および教師モデルへの忠実度の観点から,従来の KD 法で訓練したモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 28.00216413365036
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge Distillation (KD) has been considered as a key solution in model
compression and acceleration in recent years. In KD, a small student model is
generally trained from a large teacher model by minimizing the divergence
between the probabilistic outputs of the two. However, as demonstrated in our
experiments, existing KD methods might not transfer critical explainable
knowledge of the teacher to the student, i.e. the explanations of predictions
made by the two models are not consistent. In this paper, we propose a novel
explainable knowledge distillation model, called XDistillation, through which
both the performance the explanations' information are transferred from the
teacher model to the student model. The XDistillation model leverages the idea
of convolutional autoencoders to approximate the teacher explanations. Our
experiments shows that models trained by XDistillation outperform those trained
by conventional KD methods not only in term of predictive accuracy but also
faithfulness to the teacher models.
- Abstract(参考訳): 近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。
KDでは、2人の確率的アウトプットのばらつきを最小限に抑えて、大きな教師モデルから小学生モデルを訓練することが一般的である。
しかし,本実験で示されたように,既存のKD手法では教師の批判的な知識を学生に伝達することはできない。
本稿では,教師モデルから生徒モデルへ説明情報の伝達を行う,x蒸留と呼ばれる新しい説明可能な知識蒸留モデルを提案する。
XDistillationモデルは、畳み込みオートエンコーダの概念を利用して教師の説明を近似する。
実験の結果,XDistillationによる学習モデルは,予測精度だけでなく,教師モデルへの忠実性においても従来のKD法よりも優れていた。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - DE-RRD: A Knowledge Distillation Framework for Recommender System [16.62204445256007]
DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。
これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。
実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-12-08T11:09:22Z) - Joint learning of interpretation and distillation [7.412850488684037]
本稿では,GBDT2NNの予測をそれぞれ説明するための新しいアプローチに関する実証的研究を行う。
いくつかのベンチマーク実験により、提案手法は説明と予測の両方でより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-24T02:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。