論文の概要: What is Left After Distillation? How Knowledge Transfer Impacts Fairness and Bias
- arxiv url: http://arxiv.org/abs/2410.08407v1
- Date: Thu, 10 Oct 2024 22:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:36:35.257131
- Title: What is Left After Distillation? How Knowledge Transfer Impacts Fairness and Bias
- Title(参考訳): 蒸留後何が残るか : 知識伝達が公平性とバイアスに与える影響
- Authors: Aida Mohammadshahi, Yani Ioannou,
- Abstract要約: クラスの41%は、クラス単位の精度を比較する際に、蒸留によって統計的に有意な影響を受けている。
本研究は, あるクラスに対する知識蒸留の不均一な影響と, その公正性における潜在的役割を明らかにする。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation is a commonly used Deep Neural Network compression method, which often maintains overall generalization performance. However, we show that even for balanced image classification datasets, such as CIFAR-100, Tiny ImageNet and ImageNet, as many as 41% of the classes are statistically significantly affected by distillation when comparing class-wise accuracy (i.e. class bias) between a teacher/distilled student or distilled student/non-distilled student model. Changes in class bias are not necessarily an undesirable outcome when considered outside of the context of a model's usage. Using two common fairness metrics, Demographic Parity Difference (DPD) and Equalized Odds Difference (EOD) on models trained with the CelebA, Trifeature, and HateXplain datasets, our results suggest that increasing the distillation temperature improves the distilled student model's fairness -- for DPD, the distilled student even surpasses the fairness of the teacher model at high temperatures. This study highlights the uneven effects of Knowledge Distillation on certain classes and its potentially significant role in fairness, emphasizing that caution is warranted when using distilled models for sensitive application domains.
- Abstract(参考訳): 知識蒸留(Knowledge Distillation)は、一般的に使用されるディープニューラルネットワーク圧縮法であり、全体的な一般化性能を維持する。
しかし, CIFAR-100, Tiny ImageNet, ImageNetなどのバランス画像分類データセットにおいても, 授業の41%が, 教師・生徒・生徒・生徒のクラス別精度(クラスバイアス)を比較した場合, 蒸留によって統計的に有意な影響が認められた。
クラスバイアスの変化は、モデルの使用状況の外で考慮される場合、必ずしも望ましくない結果ではない。
また,CelebA,Trifeature,HateXplainデータセットを用いて学習したモデルに対して,DPD(Demographic Parity difference)とEOD(Equalized Odds difference)の2つの共通フェアネス指標を用いて,蒸留温度の上昇により,蒸留した学生モデルのフェアネスが向上することが示唆された。
本研究は、あるクラスにおける知識蒸留の不均一な効果と、その公正性における潜在的に重要な役割を強調し、留意点として、高感度なアプリケーションドメインに蒸留モデルを用いる場合、注意が必要であることを強調した。
関連論文リスト
- Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - LTD: Low Temperature Distillation for Robust Adversarial Training [1.3300217947936062]
敵の訓練は、敵の攻撃に対するニューラルネットワークモデルの堅牢性を高めるために広く使用されている。
ニューラルネットワークモデルの人気にもかかわらず、これらのモデルの自然な精度とロバストな精度の間には大きなギャップがある。
改良された知識蒸留フレームワークを用いてソフトラベルを生成する,低温蒸留(LTD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T16:26:00Z) - Categorical Relation-Preserving Contrastive Knowledge Distillation for
Medical Image Classification [75.27973258196934]
そこで本研究では,一般的な平均教師モデルであるCRCKD(Categorical Relation-Reserving Contrastive Knowledge Distillation)アルゴリズムを提案する。
この正規化により、学生モデルの特徴分布はクラス内類似度が高く、クラス間分散を示す。
CCDとCRPの貢献により、我々のCRCKDアルゴリズムはより包括的に関係知識を蒸留することができる。
論文 参考訳(メタデータ) (2021-07-07T13:56:38Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。