論文の概要: Good Teachers Explain: Explanation-Enhanced Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2402.03119v2
- Date: Sun, 21 Jul 2024 16:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:50:43.575478
- Title: Good Teachers Explain: Explanation-Enhanced Knowledge Distillation
- Title(参考訳): 良き教師が語る:説明の強化された知識蒸留
- Authors: Amin Parchami-Araghi, Moritz Böhle, Sukrut Rao, Bernt Schiele,
- Abstract要約: 知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。
本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。
シンプルで直感的なアイデアであるにもかかわらず、提案した「説明強調」KDは、精度と生徒と教師の合意の点で、一貫して大きな利益をもたらしている。
- 参考スコア(独自算出の注目度): 52.498055901649025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) has proven effective for compressing large teacher models into smaller student models. While it is well known that student models can achieve similar accuracies as the teachers, it has also been shown that they nonetheless often do not learn the same function. It is, however, often highly desirable that the student's and teacher's functions share similar properties such as basing the prediction on the same input features, as this ensures that students learn the 'right features' from the teachers. In this work, we explore whether this can be achieved by not only optimizing the classic KD loss but also the similarity of the explanations generated by the teacher and the student. Despite the idea being simple and intuitive, we find that our proposed 'explanation-enhanced' KD (e$^2$KD) (1) consistently provides large gains in terms of accuracy and student-teacher agreement, (2) ensures that the student learns from the teacher to be right for the right reasons and to give similar explanations, and (3) is robust with respect to the model architectures, the amount of training data, and even works with 'approximate', pre-computed explanations.
- Abstract(参考訳): 知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。
学生モデルが教師と同じような格付けを達成できることはよく知られているが、それにもかかわらず、それらが同じ機能を学ばないことがしばしば示されている。
しかし、生徒が教師から「正しい特徴」を学べることを保証するため、生徒と教師の機能は、同じ入力特徴に基づく予測などの類似した特性を共有することが望ましいことが多い。
本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。
アイデアは単純で直感的ではあるが,提案した「説明強調」KD(e$^2$KD)(1)は,正確性と学生-教員合意の観点から一貫して大きな利益をもたらし,(2)学生が教師から正しい理由から学び,同様の説明をすることを保証するとともに,(3)モデルアーキテクチャ,トレーニングデータの量,さらには'近似的'で事前計算された説明に対しても堅牢である。
関連論文リスト
- Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - Gradient Knowledge Distillation for Pre-trained Language Models [21.686694954239865]
蒸留プロセスに勾配配向目的を組み込むため, グラディエント知識蒸留(GKD)を提案する。
実験結果から,GKDは従来のKD法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-02T12:07:16Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。