Fugu-MT 論文翻訳(概要): Bayes Conditional Distribution Estimation for Knowledge Distillation Based on Conditional Mutual Information

論文の概要: Bayes Conditional Distribution Estimation for Knowledge Distillation Based on Conditional Mutual Information

arxiv url: http://arxiv.org/abs/2401.08732v2
Date: Thu, 7 Mar 2024 22:57:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 22:43:47.103314
Title: Bayes Conditional Distribution Estimation for Knowledge Distillation Based on Conditional Mutual Information
Title（参考訳）: 条件付き相互情報に基づく知識蒸留のためのベイズ条件分布推定
Authors: Linfeng Ye, Shayan Mohajer Hamidi, Renhao Tan, En-Hui Yang
Abstract要約: 我々はベイズ条件付き確率分布(BCPD)の推定に条件付き相互情報(CMI)の概念を導入する。 MCMI推定では、教師のログライクな状態とCMIの両方を同時に最大化する。その結果、ゼロショットや少数ショットの設定では、学生の精度が大幅に向上していることが判明した。
参考スコア（独自算出の注目度）: 3.84949625314596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is believed that in knowledge distillation (KD), the role of the teacher is to provide an estimate for the unknown Bayes conditional probability distribution (BCPD) to be used in the student training process. Conventionally, this estimate is obtained by training the teacher using maximum log-likelihood (MLL) method. To improve this estimate for KD, in this paper we introduce the concept of conditional mutual information (CMI) into the estimation of BCPD and propose a novel estimator called the maximum CMI (MCMI) method. Specifically, in MCMI estimation, both the log-likelihood and CMI of the teacher are simultaneously maximized when the teacher is trained. Through Eigen-CAM, it is further shown that maximizing the teacher's CMI value allows the teacher to capture more contextual information in an image cluster. Via conducting a thorough set of experiments, we show that by employing a teacher trained via MCMI estimation rather than one trained via MLL estimation in various state-of-the-art KD frameworks, the student's classification accuracy consistently increases, with the gain of up to 3.32\%. This suggests that the teacher's BCPD estimate provided by MCMI method is more accurate than that provided by MLL method. In addition, we show that such improvements in the student's accuracy are more drastic in zero-shot and few-shot settings. Notably, the student's accuracy increases with the gain of up to 5.72\% when 5\% of the training samples are available to the student (few-shot), and increases from 0\% to as high as 84\% for an omitted class (zero-shot). The code is available at \url{https://github.com/iclr2024mcmi/ICLRMCMI}.
Abstract（参考訳）: 知識蒸留 (kd) において, 教師の役割は, 学生の学習過程において使用する未知のベイズ条件確率分布 (bcpd) の推定を提供することであると考えられている。従来は,最大log-likelihood (mll) 法を用いて教師の訓練を行った。本稿では,この推定値を改善するために,条件付き相互情報(CMI)の概念をBCPDの推定に導入し,MCMI法と呼ばれる新しい推定手法を提案する。特に、mcmi推定では、教師のログ様相とcmiの両方が、教師の訓練時に同時に最大化される。 Eigen-CAMを通じて、教師のCMI値の最大化により、教師はイメージクラスタ内でより多くのコンテキスト情報をキャプチャできることを示す。総合的な実験を行ない,MCMI推定で訓練した教師を,様々な最先端KDフレームワークでMLL推定で訓練した教師ではなく,MCMI推定で訓練した教師を採用することにより,生徒の分類精度は最大3.32倍に向上することを示した。このことから,MCMI法による教師のBCPD推定はMLL法よりも精度が高いことが示唆された。さらに,ゼロショット設定や少数ショット設定では,学生の精度が向上することが示唆された。特筆すべきは、トレーニングサンプルの5\%が学生に提供されると、最大5.72\%のゲインで生徒の精度が向上し(few-shot)、省略されたクラス(zero-shot)では0\%から84\%まで増加することである。コードは \url{https://github.com/iclr2024mcmi/iclrmcmi} で入手できる。

関連論文リスト

Towards Undistillable Models by Minimizing Conditional Mutual Information [3.4398508628750313]
深層ニューラルネットワーク(DNN)は、ブラックボックス入力出力教師として使用される場合、知識蒸留(KD)によって蒸留できない場合、蒸留不可能とされる。従来のクロスエントロピー(CE)損失を最小化してDNNを訓練するCMIM法を提案する。 CMIMモデルは、広範囲な実験により、文献に存在する全ての試験されたKD法で不溶性であることが示されている。
論文参考訳（メタデータ） (2025-06-13T00:56:29Z)
Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。 7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文参考訳（メタデータ） (2025-02-17T12:58:12Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文参考訳（メタデータ） (2024-08-16T22:11:01Z)
How to Train the Teacher Model for Effective Knowledge Distillation [0.3495246564946556]
MSE損失を伴う教師モデルの訓練は、MSEの出力とBCPDの最小化に等しい。クロスエントロピーの損失で訓練された教師を、最先端のKD手法でMSEの損失で訓練した教師に置き換えることによって、学生の精度は一貫して向上する。
論文参考訳（メタデータ） (2024-07-25T13:39:11Z)
Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文参考訳（メタデータ） (2024-06-28T09:23:40Z)
Cosine Similarity Knowledge Distillation for Individual Class Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文参考訳（メタデータ） (2023-11-24T06:34:47Z)
Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文参考訳（メタデータ） (2023-06-07T13:41:55Z)
Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文参考訳（メタデータ） (2023-02-22T16:18:38Z)
Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文参考訳（メタデータ） (2022-06-14T07:51:25Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文参考訳（メタデータ） (2022-05-28T16:11:49Z)
InDistill: Information flow-preserving knowledge distillation for model compression [20.88709060450944]
本稿では,知識蒸留(KD)の有効性のウォームアップ段階として機能するInDistillを紹介する。 InDistillは、重厚な教師から軽量な学生に重要な情報の流れの経路を移すことに重点を置いている。提案手法は, CIFAR-10, CIFAR-100, ImageNetデータセット上で, 教師/学生の多様なアーキテクチャを用いて広範に評価されている。
論文参考訳（メタデータ） (2022-05-20T07:40:09Z)
Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。 RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。 PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文参考訳（メタデータ） (2021-12-09T11:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。