論文の概要: Knowledge Condensation Distillation
- arxiv url: http://arxiv.org/abs/2207.05409v1
- Date: Tue, 12 Jul 2022 09:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 23:39:20.500356
- Title: Knowledge Condensation Distillation
- Title(参考訳): 知識凝縮蒸留
- Authors: Chenxin Li, Mingbao Lin, Zhiyuan Ding, Nie Lin, Yihong Zhuang, Yue
Huang, Xinghao Ding, Liujuan Cao
- Abstract要約: 既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
- 参考スコア(独自算出の注目度): 38.446333274732126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) transfers the knowledge from a high-capacity
teacher network to strengthen a smaller student. Existing methods focus on
excavating the knowledge hints and transferring the whole knowledge to the
student. However, the knowledge redundancy arises since the knowledge shows
different values to the student at different learning stages. In this paper, we
propose Knowledge Condensation Distillation (KCD). Specifically, the knowledge
value on each sample is dynamically estimated, based on which an
Expectation-Maximization (EM) framework is forged to iteratively condense a
compact knowledge set from the teacher to guide the student learning. Our
approach is easy to build on top of the off-the-shelf KD methods, with no extra
training parameters and negligible computation overhead. Thus, it presents one
new perspective for KD, in which the student that actively identifies teacher's
knowledge in line with its aptitude can learn to learn more effectively and
efficiently. Experiments on standard benchmarks manifest that the proposed KCD
can well boost the performance of student model with even higher distillation
efficiency. Code is available at https://github.com/dzy3/KCD.
- Abstract(参考訳): 知識蒸留(KD)は、高能力の教師ネットワークから知識を伝達し、より小さな学生を強化する。
既存の手法では、知識のヒントを抽出し、知識全体を学生に転送することに焦点を当てている。
しかし、知識の冗長性は、知識が異なる学習段階の学生に異なる価値を示すため生じる。
本稿では,知識凝縮蒸留(KCD)を提案する。
具体的には、各サンプルの知識値を動的に推定し、期待最大化(em)フレームワークを鍛造して教師からのコンパクトな知識セットを反復的に凝縮して学生学習を指導する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能な計算オーバーヘッドがない。
そこで本研究では,教師の知識を積極的に認識し,その適性に合わせた学習を効果的かつ効率的に行うkdの新しい視点を提案する。
標準ベンチマーク実験により, 提案するkcdはより高蒸留効率で学生モデルの性能を向上できることがわかった。
コードはhttps://github.com/dzy3/KCDで入手できる。
関連論文リスト
- Student-Oriented Teacher Knowledge Refinement for Knowledge Distillation [11.754014876977422]
本報告では,学生のニーズに合うように教師の知識を改良し,学生を意識した視点を新たに導入する。
本稿では,訓練中に学習可能な機能拡張戦略を取り入れた学生指向知識蒸留(SoKD)について紹介する。
また,教師と学生の相互関心領域を特定するために,DAM(Distinctive Area Detection Module)をデプロイした。
論文 参考訳(メタデータ) (2024-09-27T14:34:08Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Hint-dynamic Knowledge Distillation [30.40008256306688]
HKDと呼ばれるHint-dynamic Knowledge Distillationは、動的スキームで教師のヒントから知識を抽出する。
メタウェイトネットワークを導入し、知識ヒントに関するインスタンス単位の重み係数を生成する。
CIFAR-100とTiny-ImageNetの標準ベンチマークの実験では、提案したHKDが知識蒸留タスクの効果を高めることが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:03:53Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。