論文の概要: Improving Group Fairness in Knowledge Distillation via Laplace Approximation of Early Exits
- arxiv url: http://arxiv.org/abs/2505.01070v1
- Date: Fri, 02 May 2025 07:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.947136
- Title: Improving Group Fairness in Knowledge Distillation via Laplace Approximation of Early Exits
- Title(参考訳): ラプラス近似による知識蒸留におけるグループフェアネスの改善
- Authors: Edvin Fasth, Sagar Singh,
- Abstract要約: そこで本研究では,Laplace近似法を用いて精度の高い不確実性推定値を得る手法を提案する。
我々の主張を検証するために、MultiNLIデータセット上のBertベースのモデルを用いて、我々のアプローチをベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has become a powerful tool for training compact student models using larger, pretrained teacher models, often requiring less data and computational resources. Teacher models typically possess more layers and thus exhibit richer feature representations compared to their student counterparts. Furthermore, student models tend to learn simpler, surface-level features in their early layers. This discrepancy can increase errors in groups where labels spuriously correlate with specific input attributes, leading to a decline in group fairness even when overall accuracy remains comparable to the teacher. To mitigate these challenges, Early-Exit Neural Networks (EENNs), which enable predictions at multiple intermediate layers, have been employed. Confidence margins derived from these early exits have been utilized to reweight both cross-entropy and distillation losses on a per-instance basis. In this paper, we propose that leveraging Laplace approximation-based methods to obtain well-calibrated uncertainty estimates can also effectively reweight challenging instances and improve group fairness. We hypothesize that Laplace approximation offers a more robust identification of difficult or ambiguous instances compared to margin-based approaches. To validate our claims, we benchmark our approach using a Bert-based model on the MultiNLI dataset.
- Abstract(参考訳): 知識蒸留(KD)は、より大規模で事前訓練された教師モデルを用いて、より少ないデータと計算資源を必要とする、コンパクトな学生モデルを訓練するための強力なツールとなっている。
教師モデルは一般的により多くのレイヤーを持ち、生徒のモデルと比べてよりリッチな特徴表現を示す。
さらに、学生モデルは初期の層でよりシンプルで表面的な特徴を学習する傾向にある。
この相違は、ラベルが特定の入力属性と急激な相関関係を持つグループにおける誤りを増大させ、全体的な精度が教師に匹敵する場合でもグループフェアネスが低下する。
これらの課題を軽減するため、複数の中間層での予測を可能にするEarly-Exit Neural Networks(EENN)が採用されている。
これらの早期出口から得られた信頼率を利用して, クロスエントロピーと蒸留損失の両面をインスタンスベースで軽減した。
本稿では,Laplace近似を用いた不確実性推定手法を用いることで,課題を効果的に再重み付けし,グループフェアネスを向上させることを提案する。
ラプラス近似は、マージンベースのアプローチと比較して、困難または曖昧なインスタンスをより堅牢に識別できるという仮説を立てる。
我々の主張を検証するために、MultiNLIデータセット上のBertベースのモデルを用いて、我々のアプローチをベンチマークする。
関連論文リスト
- Alpha and Prejudice: Improving $α$-sized Worst-case Fairness via Intrinsic Reweighting [34.954141077528334]
既成人口集団との最悪のフェアネスは、最悪の集団のモデルユーティリティを最大化することで、同等性を達成する。
近年の進歩は、最小分割比の低い境界を導入することで、この学習問題を再構築している。
論文 参考訳(メタデータ) (2024-11-05T13:04:05Z) - Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。
本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文 参考訳(メタデータ) (2023-10-28T04:58:15Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。