論文の概要: Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Methods
- arxiv url: http://arxiv.org/abs/2510.26038v1
- Date: Thu, 30 Oct 2025 00:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.612249
- Title: Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Methods
- Title(参考訳): 生徒は教師が好きか? : バイアス除去法の蒸留性について
- Authors: Jiali Cheng, Chirag Agarwal, Hadi Amiri,
- Abstract要約: 本研究では, ドバイジング能力の伝達性に及ぼす知識蒸留の影響について検討した。
我々の知る限りでは、この研究はKDがデビアシングに与える影響とその規模での相互作用機構に関する最初の研究である。
- 参考スコア(独自算出の注目度): 31.111748100296527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is an effective method for model compression and transferring knowledge between models. However, its effect on model's robustness against spurious correlations that degrade performance on out-of-distribution data remains underexplored. This study investigates the effect of knowledge distillation on the transferability of ``debiasing'' capabilities from teacher models to student models on natural language inference (NLI) and image classification tasks. Through extensive experiments, we illustrate several key findings: (i) overall the debiasing capability of a model is undermined post-KD; (ii) training a debiased model does not benefit from injecting teacher knowledge; (iii) although the overall robustness of a model may remain stable post-distillation, significant variations can occur across different types of biases; and (iv) we pin-point the internal attention pattern and circuit that causes the distinct behavior post-KD. Given the above findings, we propose three effective solutions to improve the distillability of debiasing methods: developing high quality data for augmentation, implementing iterative knowledge distillation, and initializing student models with weights obtained from teacher models. To the best of our knowledge, this is the first study on the effect of KD on debiasing and its interenal mechanism at scale. Our findings provide understandings on how KD works and how to design better debiasing methods.
- Abstract(参考訳): 知識蒸留(KD)はモデル圧縮とモデル間の知識伝達に有効な方法である。
しかし, 分布外データの性能を低下させる突発的相関に対するモデルの頑健性に対する影響は, 未解明のままである。
本研究では,知識蒸留が教師モデルから学生モデルへの「脱バイアス」能力の伝達性に及ぼす影響について,自然言語推論(NLI)と画像分類タスクについて検討した。
広範な実験を通して、いくつかの重要な発見を例示する。
(i) モデルのデバイアス能力は、KD後において損なわれている。
二 疎外モデルの訓練は、教師の知識を注入することの恩恵を受けない。
三 モデルの全体的な堅牢性は、蒸留後の安定なままであるが、異なる種類のバイアスに有意な変動が生じることがある。
(4)内部の注意パターンと回路をピンポイントで特定し,KD後に異なる行動を引き起こす。
以上の結果から,提案手法の蒸留性向上に有効な3つの方法として,増量のための高品質なデータの開発,反復的知識蒸留の実施,および教師モデルから得られた重み付けによる学生モデルの初期化を提案する。
我々の知る限りでは、この研究はKDがデビアシングに与える影響とその規模での相互作用機構に関する最初の研究である。
我々の研究は、KDがどのように機能するか、そしてより優れたデバイアス法を設計する方法についての理解を提供する。
関連論文リスト
- Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation [50.784080714897776]
知識蒸留(KD)は、現代の生産モデルの訓練と展開における中核的な要素である。
我々は,KDが学生モデルにおける精度とリコールのトレードオフを引き起こすことを示す。
本分析は、生成モデルにおけるKDの有効性について、単純かつ一般的な説明を提供する。
論文 参考訳(メタデータ) (2025-05-19T13:39:47Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Improve Knowledge Distillation via Label Revision and Data Selection [37.74822443555646]
本稿では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。
後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を提案する。
実験の結果,提案手法の有効性を実証し,他の蒸留法と組み合わせることができることを示した。
論文 参考訳(メタデータ) (2024-04-03T02:41:16Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - On the Impact of Knowledge Distillation for Model Interpretability [22.18694053092722]
知識蒸留(KD)は、解釈可能性とモデルの精度を高める。
本研究は,教師から生徒モデルへ伝達されるクラス類似性情報に対する解釈可能性の向上に寄与する。
本研究により, 大規模モデルによるKDモデルは, 様々な分野において, より信頼性の高い利用が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-05-25T05:35:11Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Understanding and Improving Knowledge Distillation [13.872105118381938]
知識蒸留(KD)はモデルに依存しない手法であり、固定容量の予算を持ちながらモデル品質を改善する。
本稿では,教師の知識を3つの階層レベルに分類し,その知識蒸留への影響について検討する。
論文 参考訳(メタデータ) (2020-02-10T04:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。