論文の概要: Estimating and Maximizing Mutual Information for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2110.15946v3
- Date: Thu, 11 May 2023 13:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 19:26:27.669539
- Title: Estimating and Maximizing Mutual Information for Knowledge Distillation
- Title(参考訳): 知識蒸留のための相互情報の推定と最大化
- Authors: Aman Shrivastava, Yanjun Qi, Vicente Ordonez
- Abstract要約: 相互情報最大化知識蒸留(MIMKD)を提案する。
提案手法は,教師と学生ネットワーク間の局所的特徴表現とグローバル的特徴表現の相互情報に対する低境界を同時に推定し,最大化するために,対照的な目的を用いる。
これは、より高性能だが計算コストの高いモデルから知識を伝達することで、低容量モデルの性能を向上させるために使用できる。
- 参考スコア(独自算出の注目度): 24.254198219979667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose Mutual Information Maximization Knowledge
Distillation (MIMKD). Our method uses a contrastive objective to simultaneously
estimate and maximize a lower bound on the mutual information of local and
global feature representations between a teacher and a student network. We
demonstrate through extensive experiments that this can be used to improve the
performance of low capacity models by transferring knowledge from more
performant but computationally expensive models. This can be used to produce
better models that can be run on devices with low computational resources. Our
method is flexible, we can distill knowledge from teachers with arbitrary
network architectures to arbitrary student networks. Our empirical results show
that MIMKD outperforms competing approaches across a wide range of
student-teacher pairs with different capacities, with different architectures,
and when student networks are with extremely low capacity. We are able to
obtain 74.55% accuracy on CIFAR100 with a ShufflenetV2 from a baseline accuracy
of 69.8% by distilling knowledge from ResNet-50. On Imagenet we improve a
ResNet-18 network from 68.88% to 70.32% accuracy (1.44%+) using a ResNet-34
teacher network.
- Abstract(参考訳): 本研究では,相互情報最大化知識蒸留(MIMKD)を提案する。
提案手法では,教師と学生ネットワーク間の局所的特徴表現とグローバル的特徴表現の相互情報に対する低境界を同時に推定し,最大化する。
我々は,より高性能だが計算コストの高いモデルから知識を伝達することで,低容量モデルの性能向上に有効であることを示す。
これは、計算リソースの少ないデバイスで実行できるより良いモデルを作成するのに使うことができる。
我々の手法は柔軟であり、任意のネットワークアーキテクチャを持つ教師から任意の学生ネットワークに知識を抽出することができる。
実験の結果,MIMKDは,異なる能力,異なるアーキテクチャ,学生ネットワークが極めて低容量である場合に,幅広い学生と教師のペア間で競合するアプローチよりも優れていた。
ResNet-50の知識を蒸留することにより,ShufflenetV2を用いたCIFAR100の74.55%の精度を69.8%の精度で取得できる。
Imagenetでは、ResNet-34の教師ネットワークを使用して、68.88%から70.32%の精度(1.44%以上)に改善した。
関連論文リスト
- Semantic Knowledge Distillation for Onboard Satellite Earth Observation Image Classification [28.08042498882207]
本研究では,資源制約条件下での効率的な地球観測(EO)画像分類(IC)に適した動的加重知識蒸留(KD)フレームワークを提案する。
我々のフレームワークは,信頼性の高い分類作業に必要な厳密な信頼しきい値に固執することにより,軽量な学生モデルの精度,精度,リコールを90%以上越えることを可能にする。
ResNet8は97.5%のパラメータの削減、96.7%のFLOPの削減、86.2%の消費電力削減、63.5%のMobileViTの推論速度向上など、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-31T21:13:40Z) - Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。
リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文 参考訳(メタデータ) (2023-12-26T01:24:25Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - Learning Knowledge Representation with Meta Knowledge Distillation for
Single Image Super-Resolution [82.89021683451432]
単一画像超解像課題に対する教師/学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。
種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T02:41:04Z) - Student Helping Teacher: Teacher Evolution via Self-Knowledge
Distillation [20.17325172100031]
本稿では,教師が構造的バックボーンを共有することで,複数の階層的な学生の助けを借りて学習する,新しい学生ヘルピング・ティーチンガー式,TESKD(Tell-Helping-Teacher Evolution)を提案する。
提案手法の有効性は,CIFAR-100 と ImageNet の2つの標準ベンチマークにおいて,様々なネットワーク設定による広範な実験により実証された。
論文 参考訳(メタデータ) (2021-10-01T11:46:12Z) - LGD: Label-guided Self-distillation for Object Detection [59.9972914042281]
我々はLGD(Label-Guided Self-Distillation)と呼ばれる汎用物体検出のための最初の自己蒸留フレームワークを提案する。
本フレームワークは, 学習知識を得るために, スパースラベル-外観符号化, オブジェクト間関係適応, オブジェクト内知識マッピングを含む。
従来の教師ベースのFGFIと比較すると、LGDは予習された教師を必要とせず、本質的な学生学習よりも51%低い訓練コストで性能が向上する。
論文 参考訳(メタデータ) (2021-09-23T16:55:01Z) - Spirit Distillation: A Model Compression Method with Multi-domain
Knowledge Transfer [5.0919090307185035]
本稿では,多領域知識伝達を用いたモデル圧縮法であるスピリット蒸留(SD)と呼ばれる新しい知識蒸留モデルを提案する。
その結果, 精度が78.2%, 精度が1.4%, 精度が8.2%向上することがわかった。
論文 参考訳(メタデータ) (2021-04-29T23:19:51Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。