論文の概要: Explanation is All You Need in Distillation: Mitigating Bias and Shortcut Learning
- arxiv url: http://arxiv.org/abs/2407.09788v1
- Date: Sat, 13 Jul 2024 07:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:47:21.526338
- Title: Explanation is All You Need in Distillation: Mitigating Bias and Shortcut Learning
- Title(参考訳): バイアとショートカット学習の軽減
- Authors: Pedro R. A. S. Bassi, Andrea Cavalli, Sergio Decherchi,
- Abstract要約: データにおけるバイアスと急激な相関は、ディープニューラルネットワークにおけるショートカット学習を引き起こす可能性がある。
本稿では,ショートカット学習の妨げとなる説明蒸留法を提案する。
説明だけでニューラルネットワークをトレーニングすることは可能であることがわかった。
- 参考スコア(独自算出の注目度): 0.4915744683251149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bias and spurious correlations in data can cause shortcut learning, undermining out-of-distribution (OOD) generalization in deep neural networks. Most methods require unbiased data during training (and/or hyper-parameter tuning) to counteract shortcut learning. Here, we propose the use of explanation distillation to hinder shortcut learning. The technique does not assume any access to unbiased data, and it allows an arbitrarily sized student network to learn the reasons behind the decisions of an unbiased teacher, such as a vision-language model or a network processing debiased images. We found that it is possible to train a neural network with explanation (e.g by Layer Relevance Propagation, LRP) distillation only, and that the technique leads to high resistance to shortcut learning, surpassing group-invariant learning, explanation background minimization, and alternative distillation techniques. In the COLOURED MNIST dataset, LRP distillation achieved 98.2% OOD accuracy, while deep feature distillation and IRM achieved 92.1% and 60.2%, respectively. In COCO-on-Places, the undesirable generalization gap between in-distribution and OOD accuracy is only of 4.4% for LRP distillation, while the other two techniques present gaps of 15.1% and 52.1%, respectively.
- Abstract(参考訳): データにおけるバイアスと急激な相関はショートカット学習を引き起こし、ディープニューラルネットワークにおけるOOD(out-of-distribution)の一般化を損なう可能性がある。
ほとんどの方法は、ショートカット学習に対処するために、トレーニング中にバイアスのないデータ(および/またはハイパーパラメータチューニング)を必要とする。
本稿では,ショートカット学習の妨げとなる説明蒸留法を提案する。
この技術は、偏見のないデータへのアクセスを前提とせず、任意のサイズの学生ネットワークが、視覚言語モデルやネットワーク処理の偏見のある画像といった、偏見のない教師の決定の背後にある理由を学習することができる。
我々は,ニューラルネットワークを説明付きでトレーニングすることは可能であること,また,この手法が,グループ不変学習,説明背景最小化,代替蒸留技術に高い耐性をもたらすことを見出した。
COLOURED MNISTデータセットでは、LRP蒸留は98.2%の精度で、深い特徴蒸留とIRMはそれぞれ92.1%と60.2%の精度で達成された。
COCO-on-Placesでは、配当とOODの精度の間の望ましくない一般化ギャップは、LPP蒸留においてわずか4.4%であり、他の2つの技術はそれぞれ15.1%と52.1%である。
関連論文リスト
- Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Debiased Distillation by Transplanting the Last Layer [14.861216810146114]
ディープモデルは、後処理のときでさえ、急激な相関を学習することに影響を受けやすい。
DeTT(Debiasing by Teacher Transplanting)という簡単な知識蒸留アルゴリズムを提案する。
DeTTは学生モデルを脱臭し、最悪のグループ精度で一貫してベースラインを上回ります。
論文 参考訳(メタデータ) (2023-02-22T07:41:09Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Spirit Distillation: Precise Real-time Prediction with Insufficient Data [4.6247655021017655]
スピリット蒸留(SD)という新しいトレーニングフレームワークを提案します。
微細チューニングに基づく伝達学習(FTT)と特徴に基づく知識蒸留の考え方を拡張している。
その結果, セグメンテーション(mIOU)において, 精度が1.4%, 精度が8.2%向上した。
論文 参考訳(メタデータ) (2021-03-25T10:23:30Z) - Enhancing Data-Free Adversarial Distillation with Activation
Regularization and Virtual Interpolation [19.778192371420793]
データフリーの逆蒸留フレームワークは生成ネットワークを展開し、教師モデルの知識を生徒モデルに転送する。
データ生成効率を向上させるために、アクティベーションレギュラライザと仮想敵対法を追加します。
CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。
論文 参考訳(メタデータ) (2021-02-23T11:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。