論文の概要: Confidence-Aware Multi-Teacher Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2201.00007v1
- Date: Thu, 30 Dec 2021 11:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 13:12:42.491730
- Title: Confidence-Aware Multi-Teacher Knowledge Distillation
- Title(参考訳): 信頼性を考慮した多教師知識蒸留
- Authors: Hailin Zhang, Defang Chen, Can Wang
- Abstract要約: そこで本研究では,教師の予測に対して,基本トラスラベルの助けを借りて,サンプルの信頼性を適応的に割り当てる,信頼性に配慮した多教師知識蒸留(CA-MKD)を提案する。
私たちのCA-MKDは、様々な教師学生アーキテクチャで比較された最先端の手法を一貫して上回ります。
- 参考スコア(独自算出の注目度): 12.938478021855245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is initially introduced to utilize additional
supervision from a single teacher model for the student model training. To
boost the student performance, some recent variants attempt to exploit diverse
knowledge sources from multiple teachers. However, existing studies mainly
integrate knowledge from diverse sources by averaging over multiple teacher
predictions or combining them using other various label-free strategies, which
may mislead student in the presence of low-quality teacher predictions. To
tackle this problem, we propose Confidence-Aware Multi-teacher Knowledge
Distillation (CA-MKD), which adaptively assigns sample-wise reliability for
each teacher prediction with the help of ground-truth labels, with those
teacher predictions close to one-hot labels assigned large weights. Besides,
CA-MKD incorporates intermediate layers to further improve student performance.
Extensive experiments show that our CA-MKD consistently outperforms all
compared state-of-the-art methods across various teacher-student architectures.
- Abstract(参考訳): 知識蒸留は、当初、学生モデルトレーニングのための1つの教師モデルから追加の監督を利用するために導入された。
学生の成績を高めるため、近年では複数の教師からの多様な知識を活用しようとしている。
しかし、既存の研究では、複数の教師予測を平均化したり、他の様々なラベルフリー戦略と組み合わせることで、様々な情報源からの知識を統合している。
この問題に対処するため,教師が重み付けした1ホットラベルに近い教師予測を用いて,教師の予測に対して,各教師の信頼度を適応的に割り当てる信頼度対応多教師知識蒸留(CA-MKD)を提案する。
さらに、CA-MKDは中間層を組み込んで生徒のパフォーマンスをさらに向上させる。
総合的な実験により、我々のCA-MKDは様々な教師学生アーキテクチャで比較された最先端の手法を一貫して上回っていることが明らかとなった。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Adaptive Multi-Teacher Knowledge Distillation with Meta-Learning [16.293262022872412]
適応型多教師知識蒸留とメタラーニング(MMKD)を提案する。
メタウェイトネットワークの助けを借りて、出力層と中間層における多様な教師の知識を活用し、生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-06-11T09:38:45Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Adaptive Multi-Teacher Multi-level Knowledge Distillation [11.722728148523366]
適応型多段階知識蒸留学習フレームワーク(AMTML-KD)を提案する。
i)各教師と潜在表現を関連付けて、インスタンスレベルの教師の重要性の重みを適応的に学習する。
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
論文 参考訳(メタデータ) (2021-03-06T08:18:16Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。