論文の概要: Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2206.06067v2
- Date: Tue, 14 Jun 2022 05:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 11:42:54.706758
- Title: Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation
- Title(参考訳): より良い教師: 知識蒸留のための動的事前知識
- Authors: Zengyu Qiu, Xinzhu Ma, Kunlin Yang, Chunya Liu, Jun Hou, Shuai Yi,
Wanli Ouyang
- Abstract要約: 本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合する動的事前知識(DPK)を提案する。
私たちのメソッドは、単にターゲットではなく、教師の特徴を入力として取ります。
- 参考スコア(独自算出の注目度): 70.92135839545314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has shown very promising capabilities in
transferring learning representations from large models (teachers) to small
models (students). However, as the capacity gap between students and teachers
becomes larger, existing KD methods fail to achieve better results. Our work
shows that the 'prior knowledge' is vital to KD, especially when applying large
teachers. Particularly, we propose the dynamic prior knowledge (DPK), which
integrates part of the teacher's features as the prior knowledge before the
feature distillation. This means that our method also takes the teacher's
feature as `input', not just `target'. Besides, we dynamically adjust the ratio
of the prior knowledge during the training phase according to the feature gap,
thus guiding the student in an appropriate difficulty. To evaluate the proposed
method, we conduct extensive experiments on two image classification benchmarks
(i.e. CIFAR100 and ImageNet) and an object detection benchmark (i.e. MS COCO).
The results demonstrate the superiority of our method in performance under
varying settings. More importantly, our DPK makes the performance of the
student model is positively correlated with that of the teacher model, which
means that we can further boost the accuracy of students by applying larger
teachers. Our codes will be publicly available for the reproducibility.
- Abstract(参考訳): 知識蒸留(kd)は、大きなモデル(教師)から小さなモデル(学生)への学習表現の転送に非常に有望な能力を示している。
しかし,学生と教師の能力格差が大きくなるにつれて,既存のKD手法ではより良い結果が得られない。
本研究は,特に大規模教員に適用する場合において,kdにとって「優先的知識」が不可欠であることを示す。
特に,教師の特徴の一部を,特徴蒸留の前に先行知識として統合する動的事前知識(DPK)を提案する。
これは、我々のメソッドが教師の特徴を単に「ターゲット」ではなく「インプット」として捉えることを意味します。
また,学習段階における事前知識の比率を特徴ギャップに応じて動的に調整することにより,学生を適切な難易度で指導する。
提案手法を評価するため、2つの画像分類ベンチマーク(CIFAR100とImageNet)とオブジェクト検出ベンチマーク(MS COCO)について広範な実験を行った。
その結果,異なる条件下での性能において,本手法が優れていることを示す。
さらに,dpkにより,生徒モデルの性能と教師モデルとの正の相関が得られ,より大きな教師を適用することで,学生の正確性をさらに高めることができる。
私たちのコードは再現性のために公開されます。
関連論文リスト
- Good Teachers Explain: Explanation-Enhanced Knowledge Distillation [52.498055901649025]
知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。
本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。
シンプルで直感的なアイデアであるにもかかわらず、提案した「説明強調」KDは、精度と生徒と教師の合意の点で、一貫して大きな利益をもたらしている。
論文 参考訳(メタデータ) (2024-02-05T15:47:54Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Gradient Knowledge Distillation for Pre-trained Language Models [21.686694954239865]
蒸留プロセスに勾配配向目的を組み込むため, グラディエント知識蒸留(GKD)を提案する。
実験結果から,GKDは従来のKD法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-02T12:07:16Z) - Evaluation-oriented Knowledge Distillation for Deep Face Recognition [19.01023156168511]
本研究では,教師モデルと学生モデルのパフォーマンスギャップを直接軽減するために,深層顔認識のための新しい評価指向KD法を提案する。
EKDは顔認識において一般的に用いられる評価指標、すなわち偽陽性率(FPR)と真陽性率(TPR)をパフォーマンス指標として用いている。
論文 参考訳(メタデータ) (2022-06-06T02:49:40Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。