論文の概要: Improving Knowledge Distillation with Teacher's Explanation
- arxiv url: http://arxiv.org/abs/2310.02572v1
- Date: Wed, 4 Oct 2023 04:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:31:49.765048
- Title: Improving Knowledge Distillation with Teacher's Explanation
- Title(参考訳): 教師の説明による知識蒸留の改善
- Authors: Sayantan Chowdhury, Ben Liang, Ali Tizghadam, and Ilijc Albanese
- Abstract要約: 本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
- 参考スコア(独自算出の注目度): 14.935696904019146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) improves the performance of a low-complexity
student model with the help of a more powerful teacher. The teacher in KD is a
black-box model, imparting knowledge to the student only through its
predictions. This limits the amount of transferred knowledge. In this work, we
introduce a novel Knowledge Explaining Distillation (KED) framework, which
allows the student to learn not only from the teacher's predictions but also
from the teacher's explanations. We propose a class of superfeature-explaining
teachers that provide explanation over groups of features, along with the
corresponding student model. We also present a method for constructing the
superfeatures. We then extend KED to reduce complexity in convolutional neural
networks, to allow augmentation with hidden-representation distillation
methods, and to work with a limited amount of training data using chimeric
sets. Our experiments over a variety of datasets show that KED students can
substantially outperform KD students of similar complexity.
- Abstract(参考訳): 知識蒸留(KD)は、より強力な教師の助けを借りて、低複雑さの学生モデルの性能を向上させる。
KDの教師はブラックボックスモデルであり、その予測を通じてのみ生徒に知識を与える。
これは伝達された知識の量を制限する。
本研究では,教師の予測だけでなく,教師の説明からも学習できる新しい知識説明蒸留(KED)フレームワークを提案する。
そこで本研究では,機能群に関する説明を行う教師のクラスと,それに対応する生徒モデルを提案する。
また,超機能を構築する手法を提案する。
次にkkを拡張し,畳み込みニューラルネットワークの複雑性を低減し,隠れ表現蒸留法による拡張を可能にし,キメラ集合を用いた限られた量のトレーニングデータを扱う。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Good Teachers Explain: Explanation-Enhanced Knowledge Distillation [52.498055901649025]
知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。
本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。
シンプルで直感的なアイデアであるにもかかわらず、提案した「説明強調」KDは、精度と生徒と教師の合意の点で、一貫して大きな利益をもたらしている。
論文 参考訳(メタデータ) (2024-02-05T15:47:54Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Improved Knowledge Distillation via Adversarial Collaboration [2.373824287636486]
小学生モデルは、大きく訓練された教師モデルの知識を活用するために訓練される。
教師と生徒の能力格差のため、生徒の成績は教師のレベルに達することは困難である。
本稿では, 知識蒸留の性能を効果的に向上させる, ACKD (Adversarial Collaborative Knowledge Distillation) 法を提案する。
論文 参考訳(メタデータ) (2021-11-29T07:20:46Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文 参考訳(メタデータ) (2020-05-19T01:54:15Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。