論文の概要: Adaptive Group Robust Ensemble Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2411.14984v1
- Date: Fri, 22 Nov 2024 14:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:32.095592
- Title: Adaptive Group Robust Ensemble Knowledge Distillation
- Title(参考訳): 適応型グループロバストアンサンブル知識蒸留
- Authors: Patrik Kenfack, Ulrich Aïvodji, Samira Ebrahimi Kahou,
- Abstract要約: 適応型グループロバスト・アンサンブル知識蒸留(AGRE-KD)を提案する。
本手法は, バイアスモデルから逸脱した傾き方向の教師を重み付けすることで, 最低性能のサブグループを改善するための知識を持つ教師を選択的に選択する。
- 参考スコア(独自算出の注目度): 6.4989916051093815
- License:
- Abstract: Neural networks can learn spurious correlations in the data, often leading to performance disparity for underrepresented subgroups. Studies have demonstrated that the disparity is amplified when knowledge is distilled from a complex teacher model to a relatively "simple" student model. Prior work has shown that ensemble deep learning methods can improve the performance of the worst-case subgroups; however, it is unclear if this advantage carries over when distilling knowledge from an ensemble of teachers, especially when the teacher models are debiased. This study demonstrates that traditional ensemble knowledge distillation can significantly drop the performance of the worst-case subgroups in the distilled student model even when the teacher models are debiased. To overcome this, we propose Adaptive Group Robust Ensemble Knowledge Distillation (AGRE-KD), a simple ensembling strategy to ensure that the student model receives knowledge beneficial for unknown underrepresented subgroups. Leveraging an additional biased model, our method selectively chooses teachers whose knowledge would better improve the worst-performing subgroups by upweighting the teachers with gradient directions deviating from the biased model. Our experiments on several datasets demonstrate the superiority of the proposed ensemble distillation technique and show that it can even outperform classic model ensembles based on majority voting.
- Abstract(参考訳): ニューラルネットワークはデータの急激な相関関係を学習することができ、しばしば、表現不足のサブグループのパフォーマンス格差につながる。
研究は、複雑な教師モデルから比較的「単純な」学生モデルに知識が蒸留されると、その格差が増幅されることを実証している。
先行研究では、アンサンブル深層学習法は、最悪の場合のサブグループの性能を向上させることが示されているが、この利点が教師のアンサンブルから知識を蒸留する場合、特に教師モデルに偏りが生じた場合、それが引き継がれるかどうかは不明である。
本研究は, 従来のアンサンブル知識蒸留は, 教師モデルに偏りがある場合でも, 学生モデルの最悪の部分群の性能を著しく低下させることができることを示した。
これを解決するために,適応型グループロバストアンサンブル知識蒸留(AGRE-KD)を提案する。
新たなバイアスモデルを活用することで、バイアスモデルから逸脱した勾配方向の教師を重み付けすることで、最悪のパフォーマンスのサブグループを改善するための知識を持つ教師を選択的に選択する。
いくつかのデータセットに対する実験により,提案したアンサンブル蒸留手法の優位性を実証し,多数決投票に基づく古典的モデルアンサンブルよりも優れていることを示す。
関連論文リスト
- Fair Distillation: Teaching Fairness from Biased Teachers in Medical Imaging [16.599189934420885]
本研究では,Fair Distillation (FairDi) 法を提案する。
また,FairDiの精度は,既存手法に比べて向上し,グループ別精度も向上した。
FairDiは分類やセグメンテーションなどの様々な医療タスクに適応し、公平なモデルパフォーマンスのための効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-18T16:50:34Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - The Group Robustness is in the Details: Revisiting Finetuning under Spurious Correlations [8.844894807922902]
現代の機械学習モデルは、素早い相関に過度に依存する傾向がある。
本稿では,最短群精度における微調整モデルの意外かつニュアンスな挙動を同定する。
以上の結果より,群強靭性を有する現代ファインチュードモデルの微妙な相互作用が以前よりも顕著に示された。
論文 参考訳(メタデータ) (2024-07-19T00:34:03Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Efficient Knowledge Distillation from Model Checkpoints [36.329429655242535]
同じ訓練軌道から複数の中間モデルの弱いスナップショットアンサンブルは、独立に訓練された完全収束モデルの強いアンサンブルより優れていることを示す。
本稿では,タスク関連相互情報の最大化に基づく最適中間教師選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:55:30Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。