論文の概要: Learning Interpretation with Explainable Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2111.06945v1
- Date: Fri, 12 Nov 2021 21:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 04:29:07.692470
- Title: Learning Interpretation with Explainable Knowledge Distillation
- Title(参考訳): 説明可能な知識蒸留による学習解釈
- Authors: Raed Alharbi, Minh N. Vu, My T. Thai
- Abstract要約: 近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。
そこで本研究では,教師モデルから学生モデルに説明文の情報を伝達する,XDistillationと呼ばれる新しい知識蒸留モデルを提案する。
実験の結果,XDistillation で訓練したモデルは,予測精度および教師モデルへの忠実度の観点から,従来の KD 法で訓練したモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 28.00216413365036
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge Distillation (KD) has been considered as a key solution in model
compression and acceleration in recent years. In KD, a small student model is
generally trained from a large teacher model by minimizing the divergence
between the probabilistic outputs of the two. However, as demonstrated in our
experiments, existing KD methods might not transfer critical explainable
knowledge of the teacher to the student, i.e. the explanations of predictions
made by the two models are not consistent. In this paper, we propose a novel
explainable knowledge distillation model, called XDistillation, through which
both the performance the explanations' information are transferred from the
teacher model to the student model. The XDistillation model leverages the idea
of convolutional autoencoders to approximate the teacher explanations. Our
experiments shows that models trained by XDistillation outperform those trained
by conventional KD methods not only in term of predictive accuracy but also
faithfulness to the teacher models.
- Abstract(参考訳): 近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。
KDでは、2人の確率的アウトプットのばらつきを最小限に抑えて、大きな教師モデルから小学生モデルを訓練することが一般的である。
しかし,本実験で示されたように,既存のKD手法では教師の批判的な知識を学生に伝達することはできない。
本稿では,教師モデルから生徒モデルへ説明情報の伝達を行う,x蒸留と呼ばれる新しい説明可能な知識蒸留モデルを提案する。
XDistillationモデルは、畳み込みオートエンコーダの概念を利用して教師の説明を近似する。
実験の結果,XDistillationによる学習モデルは,予測精度だけでなく,教師モデルへの忠実性においても従来のKD法よりも優れていた。
関連論文リスト
- Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。
このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。
実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T12:24:15Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - DE-RRD: A Knowledge Distillation Framework for Recommender System [16.62204445256007]
DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。
これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。
実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-12-08T11:09:22Z) - Joint learning of interpretation and distillation [7.412850488684037]
本稿では,GBDT2NNの予測をそれぞれ説明するための新しいアプローチに関する実証的研究を行う。
いくつかのベンチマーク実験により、提案手法は説明と予測の両方でより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-24T02:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。