論文の概要: Fixing the Teacher-Student Knowledge Discrepancy in Distillation
- arxiv url: http://arxiv.org/abs/2103.16844v1
- Date: Wed, 31 Mar 2021 06:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 01:44:10.463701
- Title: Fixing the Teacher-Student Knowledge Discrepancy in Distillation
- Title(参考訳): 蒸留における教師と学生の知識の相違
- Authors: Jiangfan Han, Mengya Gao, Yujie Wang, Quanquan Li, Hongsheng Li,
Xiaogang Wang
- Abstract要約: 本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
- 参考スコア(独自算出の注目度): 72.4354883997316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a small student network with the guidance of a larger teacher
network is an effective way to promote the performance of the student. Despite
the different types, the guided knowledge used to distill is always kept
unchanged for different teacher and student pairs in previous knowledge
distillation methods. However, we find that teacher and student models with
different networks or trained from different initialization could have distinct
feature representations among different channels. (e.g. the high activated
channel for different categories). We name this incongruous representation of
channels as teacher-student knowledge discrepancy in the distillation process.
Ignoring the knowledge discrepancy problem of teacher and student models will
make the learning of student from teacher more difficult. To solve this
problem, in this paper, we propose a novel student-dependent distillation
method, knowledge consistent distillation, which makes teacher's knowledge more
consistent with the student and provides the best suitable knowledge to
different student networks for distillation. Extensive experiments on different
datasets (CIFAR100, ImageNet, COCO) and tasks (image classification, object
detection) reveal the widely existing knowledge discrepancy problem between
teachers and students and demonstrate the effectiveness of our proposed method.
Our method is very flexible that can be easily combined with other
state-of-the-art approaches.
- Abstract(参考訳): より大規模な教員ネットワークの指導による小学生ネットワークの育成は,学生のパフォーマンス向上に有効な方法である。
異なる種類にもかかわらず、蒸留に用いられる指導知識は常に、以前の知識蒸留法において、異なる教師と学生ペアに対して不変である。
しかし、異なるネットワークを持つ教師と生徒のモデル、異なる初期化から訓練されたモデルでは、異なるチャネル間で異なる特徴表現を持つ可能性がある。
(例)
異なるカテゴリーに対する高い活性化チャネル)
蒸留プロセスにおいて,このチャネルを教師が学習する知識の相違として表現する。
教師と生徒モデルの知識格差問題を無視して、教師から生徒への学習をより困難にする。
そこで,本稿では,教師の知識を生徒とより一貫性を持たせ,異なる留学生ネットワークに最適な知識を提供する,新しい留学生依存蒸留法である知識一貫性蒸留を提案する。
様々なデータセット(CIFAR100, ImageNet, COCO)とタスク(画像分類, 物体検出)の広範囲にわたる実験により, 教師と学生の間で存在する知識の相違の問題を明らかにし, 提案手法の有効性を実証した。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
関連論文リスト
- Student-Oriented Teacher Knowledge Refinement for Knowledge Distillation [11.754014876977422]
本報告では,学生のニーズに合うように教師の知識を改良し,学生を意識した視点を新たに導入する。
本稿では,訓練中に学習可能な機能拡張戦略を取り入れた学生指向知識蒸留(SoKD)について紹介する。
また,教師と学生の相互関心領域を特定するために,DAM(Distinctive Area Detection Module)をデプロイした。
論文 参考訳(メタデータ) (2024-09-27T14:34:08Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Student Network Learning via Evolutionary Knowledge Distillation [22.030934154498205]
教師知識の伝達効率を改善するための進化的知識蒸留手法を提案する。
進化的教師は、固定された予習教師の代わりにオンラインで学習され、学生ネットワーク学習を監督するために、中間的知識を継続的に伝達する。
このようにして、学生は豊富な内部知識を同時に獲得し、その成長過程を捉え、効果的なネットワーク学習につながる。
論文 参考訳(メタデータ) (2021-03-23T02:07:15Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Densely Guided Knowledge Distillation using Multiple Teacher Assistants [5.169724825219126]
モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留法を提案する。
また,ミニバッチ毎に,教師や教師のアシスタントがランダムにドロップされるような授業も設計する。
これは、学生ネットワークの教育効率を向上させるために、レギュラーライザとして機能する。
論文 参考訳(メタデータ) (2020-09-18T13:12:52Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。