論文の概要: Estimating and Maximizing Mutual Information for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2110.15946v1
- Date: Fri, 29 Oct 2021 17:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 15:51:25.888759
- Title: Estimating and Maximizing Mutual Information for Knowledge Distillation
- Title(参考訳): 知識蒸留のための相互情報の推定と最大化
- Authors: Aman Shrivastava, Yanjun Qi, Vicente Ordonez
- Abstract要約: 相互情報最大化知識蒸留(MIMKD)を提案する。
本手法は,教師と学生ネットワークの中間表現と大域表現の相互情報に対する低境界を同時に推定し,最大化するために,対照的な目的を用いる。
そのため、任意の教師から任意の生徒に知識を抽出することができる。
- 参考スコア(独自算出の注目度): 20.770809050030554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a widely used general technique to transfer
knowledge from a teacher network to a student network. In this work, we propose
Mutual Information Maximization Knowledge Distillation (MIMKD). Our method uses
a contrastive objective to simultaneously estimate and maximize a lower bound
on the mutual information between intermediate and global feature
representations from the teacher and the student networks. Our method is
flexible, as the proposed mutual information maximization does not impose
significant constraints on the structure of the intermediate features of the
networks. As such, we can distill knowledge from arbitrary teachers to
arbitrary students. Our empirical results show that our method outperforms
competing approaches across a wide range of student-teacher pairs with
different capacities, with different architectures, and when student networks
are with extremely low capacity. We are able to obtain 74.55% accuracy on
CIFAR100 with a ShufflenetV2 from a baseline accuracy of 69.8% by distilling
knowledge from ResNet50.
- Abstract(参考訳): 知識蒸留は、教師ネットワークから学生ネットワークへ知識を伝達する一般的な手法として広く用いられている。
本研究では,相互情報最大化知識蒸留(MIMKD)を提案する。
本手法は,教師と学生ネットワークの中間的特徴表現と大域的特徴表現の相互情報に対する低境界を同時に推定し,最大化する。
提案した相互情報の最大化は,ネットワークの中間的特徴の構造に重大な制約を課さないため,本手法は柔軟である。
そのため、任意の教師から任意の生徒に知識を抽出することができる。
実験の結果,本手法は,異なる能力,異なるアーキテクチャ,学生ネットワークが極端に低容量である場合に,幅広い学生と教師のペア間で競合する手法よりも優れていた。
ResNet50の知識を蒸留することにより,ShufflenetV2を用いたCIFAR100の74.55%の精度を69.8%の精度で取得できる。
関連論文リスト
- Semantic Knowledge Distillation for Onboard Satellite Earth Observation Image Classification [28.08042498882207]
本研究では,資源制約条件下での効率的な地球観測(EO)画像分類(IC)に適した動的加重知識蒸留(KD)フレームワークを提案する。
我々のフレームワークは,信頼性の高い分類作業に必要な厳密な信頼しきい値に固執することにより,軽量な学生モデルの精度,精度,リコールを90%以上越えることを可能にする。
ResNet8は97.5%のパラメータの削減、96.7%のFLOPの削減、86.2%の消費電力削減、63.5%のMobileViTの推論速度向上など、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-31T21:13:40Z) - Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。
リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文 参考訳(メタデータ) (2023-12-26T01:24:25Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - Learning Knowledge Representation with Meta Knowledge Distillation for
Single Image Super-Resolution [82.89021683451432]
単一画像超解像課題に対する教師/学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。
種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T02:41:04Z) - Student Helping Teacher: Teacher Evolution via Self-Knowledge
Distillation [20.17325172100031]
本稿では,教師が構造的バックボーンを共有することで,複数の階層的な学生の助けを借りて学習する,新しい学生ヘルピング・ティーチンガー式,TESKD(Tell-Helping-Teacher Evolution)を提案する。
提案手法の有効性は,CIFAR-100 と ImageNet の2つの標準ベンチマークにおいて,様々なネットワーク設定による広範な実験により実証された。
論文 参考訳(メタデータ) (2021-10-01T11:46:12Z) - LGD: Label-guided Self-distillation for Object Detection [59.9972914042281]
我々はLGD(Label-Guided Self-Distillation)と呼ばれる汎用物体検出のための最初の自己蒸留フレームワークを提案する。
本フレームワークは, 学習知識を得るために, スパースラベル-外観符号化, オブジェクト間関係適応, オブジェクト内知識マッピングを含む。
従来の教師ベースのFGFIと比較すると、LGDは予習された教師を必要とせず、本質的な学生学習よりも51%低い訓練コストで性能が向上する。
論文 参考訳(メタデータ) (2021-09-23T16:55:01Z) - Spirit Distillation: A Model Compression Method with Multi-domain
Knowledge Transfer [5.0919090307185035]
本稿では,多領域知識伝達を用いたモデル圧縮法であるスピリット蒸留(SD)と呼ばれる新しい知識蒸留モデルを提案する。
その結果, 精度が78.2%, 精度が1.4%, 精度が8.2%向上することがわかった。
論文 参考訳(メタデータ) (2021-04-29T23:19:51Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。