論文の概要: Explanation is All You Need in Distillation: Mitigating Bias and Shortcut Learning
- arxiv url: http://arxiv.org/abs/2407.09788v1
- Date: Sat, 13 Jul 2024 07:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-16 20:47:21.526338
- Title: Explanation is All You Need in Distillation: Mitigating Bias and Shortcut Learning
- Title(参考訳): バイアとショートカット学習の軽減
- Authors: Pedro R. A. S. Bassi, Andrea Cavalli, Sergio Decherchi,
- Abstract要約: データにおけるバイアスと急激な相関は、ディープニューラルネットワークにおけるショートカット学習を引き起こす可能性がある。
本稿では,ショートカット学習の妨げとなる説明蒸留法を提案する。
説明だけでニューラルネットワークをトレーニングすることは可能であることがわかった。
- 参考スコア(独自算出の注目度): 0.4915744683251149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bias and spurious correlations in data can cause shortcut learning, undermining out-of-distribution (OOD) generalization in deep neural networks. Most methods require unbiased data during training (and/or hyper-parameter tuning) to counteract shortcut learning. Here, we propose the use of explanation distillation to hinder shortcut learning. The technique does not assume any access to unbiased data, and it allows an arbitrarily sized student network to learn the reasons behind the decisions of an unbiased teacher, such as a vision-language model or a network processing debiased images. We found that it is possible to train a neural network with explanation (e.g by Layer Relevance Propagation, LRP) distillation only, and that the technique leads to high resistance to shortcut learning, surpassing group-invariant learning, explanation background minimization, and alternative distillation techniques. In the COLOURED MNIST dataset, LRP distillation achieved 98.2% OOD accuracy, while deep feature distillation and IRM achieved 92.1% and 60.2%, respectively. In COCO-on-Places, the undesirable generalization gap between in-distribution and OOD accuracy is only of 4.4% for LRP distillation, while the other two techniques present gaps of 15.1% and 52.1%, respectively.
- Abstract(参考訳): データにおけるバイアスと急激な相関はショートカット学習を引き起こし、ディープニューラルネットワークにおけるOOD(out-of-distribution)の一般化を損なう可能性がある。
ほとんどの方法は、ショートカット学習に対処するために、トレーニング中にバイアスのないデータ(および/またはハイパーパラメータチューニング)を必要とする。
本稿では,ショートカット学習の妨げとなる説明蒸留法を提案する。
この技術は、偏見のないデータへのアクセスを前提とせず、任意のサイズの学生ネットワークが、視覚言語モデルやネットワーク処理の偏見のある画像といった、偏見のない教師の決定の背後にある理由を学習することができる。
我々は,ニューラルネットワークを説明付きでトレーニングすることは可能であること,また,この手法が,グループ不変学習,説明背景最小化,代替蒸留技術に高い耐性をもたらすことを見出した。
COLOURED MNISTデータセットでは、LRP蒸留は98.2%の精度で、深い特徴蒸留とIRMはそれぞれ92.1%と60.2%の精度で達成された。
COCO-on-Placesでは、配当とOODの精度の間の望ましくない一般化ギャップは、LPP蒸留においてわずか4.4%であり、他の2つの技術はそれぞれ15.1%と52.1%である。
関連論文リスト
- PLD: A Choice-Theoretic List-Wise Knowledge Distillation [14.801268227422517]
我々は,教師のロジットを「価値」スコアと解釈することで,プラケット・ルーシモデルの下で知識蒸留をリキャストする。
そこで我々は,教師モデルがクラスの全ランキングに関する知識を伝達する,重み付きリストレベルのランキング損失であるPlockett-Luce Distillation (PLD)を紹介した。
論文 参考訳(メタデータ) (2025-06-14T15:31:54Z) - REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [58.33728862521732]
Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
HASTEを紹介する
論文 参考訳(メタデータ) (2025-05-22T15:34:33Z) - Fine-tuning is Not Fine: Mitigating Backdoor Attacks in GNNs with Limited Clean Data [51.745219224707384]
グラフニューラルネットワーク(GNN)は,メッセージパッシング機構を通じて,優れたパフォーマンスを実現している。
最近の研究は、GNNのバックドア攻撃に対する脆弱性を強調している。
本稿では,実践的なバックドア緩和フレームワークである GraphNAD を提案する。
論文 参考訳(メタデータ) (2025-01-10T10:16:35Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Distillation Learning Guided by Image Reconstruction for One-Shot Medical Image Segmentation [12.33442990188044]
1ショットの医用画像分割法(MIS)は、しばしば登録エラーや低品質の合成画像に悩まされる。
知識蒸留に基づく新しいワンショットMISフレームワークを提案する。
これは、画像再構成によって導かれる蒸留プロセスを通じて、ネットワークが実際の画像を直接「見る」ことを可能にする。
論文 参考訳(メタデータ) (2024-08-07T08:17:34Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Distilling Adversarial Robustness Using Heterogeneous Teachers [9.404102810698202]
頑健さは 逆行訓練を受けた教師から 知識蒸留を用いて 生徒モデルに移行できる
異種教員を用いた強靭性を蒸留することにより、敵攻撃に対する防御体制を構築した。
ホワイトボックスとブラックボックスの両方のシナリオにおける分類タスクの実験は、DARHTが最先端のクリーンで堅牢な精度を達成することを示した。
論文 参考訳(メタデータ) (2024-02-23T19:55:13Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Debiased Distillation by Transplanting the Last Layer [14.861216810146114]
ディープモデルは、後処理のときでさえ、急激な相関を学習することに影響を受けやすい。
DeTT(Debiasing by Teacher Transplanting)という簡単な知識蒸留アルゴリズムを提案する。
DeTTは学生モデルを脱臭し、最悪のグループ精度で一貫してベースラインを上回ります。
論文 参考訳(メタデータ) (2023-02-22T07:41:09Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Cross-Modal Contrastive Learning for Robust Reasoning in VQA [76.1596796687494]
視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。
本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T05:32:24Z) - Black-box Few-shot Knowledge Distillation [55.27881513982002]
知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
そこで本研究では,未ラベルのトレーニングサンプルとブラックボックスの教師を用いて,学生を訓練するためのブラックボックス数ショットKD手法を提案する。
我々は、画像分類タスクにおいて、最近のSOTA/ゼロショットKD法よりも大幅に優れていることを示すため、広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-25T12:16:53Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - MIPR:Automatic Annotation of Medical Images with Pixel Rearrangement [7.39560318487728]
医用画像画素再構成(MIPR)という,別の角度からの注釈付きデータの欠如を解決する新しい手法を提案する。
MIPRは画像編集と擬似ラベル技術を組み合わせてラベル付きデータを取得する。
ISIC18での実験では,本手法による分節処理が医師のアノテーションと同等かそれ以上の効果があることが示されている。
論文 参考訳(メタデータ) (2022-04-22T05:54:14Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Reconstruction Student with Attention for Student-Teacher Pyramid
Matching [10.305130700118399]
学生・教師の特徴ピラミッドマッチング(STPM)は,少数のエポックを持つ通常の画像のみから訓練することができる。
本稿ではSTPMの欠点を補う強力な手法を提案する。
機能再構築のための学生-教師ネットワークは,元のSTPMと比較して,画素レベルと画像レベルのAUCスコアを改善した。
論文 参考訳(メタデータ) (2021-11-30T13:24:10Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Spirit Distillation: Precise Real-time Prediction with Insufficient Data [4.6247655021017655]
スピリット蒸留(SD)という新しいトレーニングフレームワークを提案します。
微細チューニングに基づく伝達学習(FTT)と特徴に基づく知識蒸留の考え方を拡張している。
その結果, セグメンテーション(mIOU)において, 精度が1.4%, 精度が8.2%向上した。
論文 参考訳(メタデータ) (2021-03-25T10:23:30Z) - Enhancing Data-Free Adversarial Distillation with Activation
Regularization and Virtual Interpolation [19.778192371420793]
データフリーの逆蒸留フレームワークは生成ネットワークを展開し、教師モデルの知識を生徒モデルに転送する。
データ生成効率を向上させるために、アクティベーションレギュラライザと仮想敵対法を追加します。
CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。
論文 参考訳(メタデータ) (2021-02-23T11:37:40Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。