論文の概要: Bayes Conditional Distribution Estimation for Knowledge Distillation
Based on Conditional Mutual Information
- arxiv url: http://arxiv.org/abs/2401.08732v2
- Date: Thu, 7 Mar 2024 22:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:43:47.103314
- Title: Bayes Conditional Distribution Estimation for Knowledge Distillation
Based on Conditional Mutual Information
- Title(参考訳): 条件付き相互情報に基づく知識蒸留のためのベイズ条件分布推定
- Authors: Linfeng Ye, Shayan Mohajer Hamidi, Renhao Tan, En-Hui Yang
- Abstract要約: 我々はベイズ条件付き確率分布(BCPD)の推定に条件付き相互情報(CMI)の概念を導入する。
MCMI推定では、教師のログライクな状態とCMIの両方を同時に最大化する。
その結果、ゼロショットや少数ショットの設定では、学生の精度が大幅に向上していることが判明した。
- 参考スコア(独自算出の注目度): 3.84949625314596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is believed that in knowledge distillation (KD), the role of the teacher
is to provide an estimate for the unknown Bayes conditional probability
distribution (BCPD) to be used in the student training process. Conventionally,
this estimate is obtained by training the teacher using maximum log-likelihood
(MLL) method. To improve this estimate for KD, in this paper we introduce the
concept of conditional mutual information (CMI) into the estimation of BCPD and
propose a novel estimator called the maximum CMI (MCMI) method. Specifically,
in MCMI estimation, both the log-likelihood and CMI of the teacher are
simultaneously maximized when the teacher is trained. Through Eigen-CAM, it is
further shown that maximizing the teacher's CMI value allows the teacher to
capture more contextual information in an image cluster. Via conducting a
thorough set of experiments, we show that by employing a teacher trained via
MCMI estimation rather than one trained via MLL estimation in various
state-of-the-art KD frameworks, the student's classification accuracy
consistently increases, with the gain of up to 3.32\%. This suggests that the
teacher's BCPD estimate provided by MCMI method is more accurate than that
provided by MLL method. In addition, we show that such improvements in the
student's accuracy are more drastic in zero-shot and few-shot settings.
Notably, the student's accuracy increases with the gain of up to 5.72\% when
5\% of the training samples are available to the student (few-shot), and
increases from 0\% to as high as 84\% for an omitted class (zero-shot). The
code is available at \url{https://github.com/iclr2024mcmi/ICLRMCMI}.
- Abstract(参考訳): 知識蒸留 (kd) において, 教師の役割は, 学生の学習過程において使用する未知のベイズ条件確率分布 (bcpd) の推定を提供することであると考えられている。
従来は,最大log-likelihood (mll) 法を用いて教師の訓練を行った。
本稿では,この推定値を改善するために,条件付き相互情報(CMI)の概念をBCPDの推定に導入し,MCMI法と呼ばれる新しい推定手法を提案する。
特に、mcmi推定では、教師のログ様相とcmiの両方が、教師の訓練時に同時に最大化される。
Eigen-CAMを通じて、教師のCMI値の最大化により、教師はイメージクラスタ内でより多くのコンテキスト情報をキャプチャできることを示す。
総合的な実験を行ない,MCMI推定で訓練した教師を,様々な最先端KDフレームワークでMLL推定で訓練した教師ではなく,MCMI推定で訓練した教師を採用することにより,生徒の分類精度は最大3.32倍に向上することを示した。
このことから,MCMI法による教師のBCPD推定はMLL法よりも精度が高いことが示唆された。
さらに,ゼロショット設定や少数ショット設定では,学生の精度が向上することが示唆された。
特筆すべきは、トレーニングサンプルの5\%が学生に提供されると、最大5.72\%のゲインで生徒の精度が向上し(few-shot)、省略されたクラス(zero-shot)では0\%から84\%まで増加することである。
コードは \url{https://github.com/iclr2024mcmi/iclrmcmi} で入手できる。
関連論文リスト
- Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - CrossKD: Cross-Head Knowledge Distillation for Object Detection [69.16346256926842]
知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。
そこで本研究では,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる蒸留方式を模倣する予測手法を提案する。
われわれのCrossKDはGFL ResNet-50の平均精度を40.2から43.7に向上させ、既存のKD手法を上回ります。
論文 参考訳(メタデータ) (2023-06-20T08:19:51Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文 参考訳(メタデータ) (2023-02-22T16:18:38Z) - Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。
様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文 参考訳(メタデータ) (2022-06-14T07:51:25Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - Boosting Light-Weight Depth Estimation Via Knowledge Distillation [21.93879961636064]
本稿では,最小限の計算資源を用いて深度マップを正確に推定できる軽量ネットワークを提案する。
モデル複雑性を最大に低減するコンパクトなモデルアーキテクチャを設計することで、これを実現する。
本手法は, パラメータの1%しか使用せず, 最先端手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-05-13T08:42:42Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。