論文の概要: Toward Understanding Adversarial Distillation: Why Robust Teachers Fail
- arxiv url: http://arxiv.org/abs/2605.21999v1
- Date: Thu, 21 May 2026 04:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.096521
- Title: Toward Understanding Adversarial Distillation: Why Robust Teachers Fail
- Title(参考訳): 対人蒸留の理解に向けて--ロバスト教師がなぜ失敗したのか
- Authors: Hongsin Lee, Hye Won Chung,
- Abstract要約: Adrial Distillationは,教師のソフトラベルで生徒に指導することで,生徒の堅牢性を高めることを目的としている。
この教師依存の鍵となるメカニズムは,教師の監督的信頼度と生徒の表現的制限との相違である。
- 参考スコア(独自算出の注目度): 22.989324947501018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial Distillation aims to enhance student robustness by guiding the student with a robust teacher's soft labels within the min-max adversarial training framework, yet its success is notoriously inconsistent: a more robust teacher often fails to improve, or even harms, the student's robust generalization. In this paper, we identify a key mechanism of this teacher dependency: the misalignment between the teacher's supervisory confidence and the student's representational limitations on a consistent subset of training data -- the Robustly Unlearnable Set. We present a theoretical framework analyzing the feature learning dynamics of a two-layer neural network, demonstrating that this mismatch creates a dichotomy in distillation outcomes. We prove that when a teacher provides confident supervision on unlearnable samples, it compels the student to memorize spurious noise patterns that eventually overpower the learned robust signal, thereby driving robust overfitting. Conversely, a teacher that exhibits high uncertainty on these samples effectively suppresses noise memorization, allowing the student to rely solely on the learnable signal for robust generalization. We empirically validate our theory across both synthetic simulations and real-image classification datasets, confirming that robust overfitting is driven by the teacher's interaction with unlearnable samples. Finally, we demonstrate that a teacher's predictive entropy on unlearnable samples serves as a strong indicator of student robustness, validating our theoretical framework and offering a principled guideline for robust teacher selection.
- Abstract(参考訳): 対人蒸留は、生徒にMin-maxの対人訓練フレームワーク内で頑健な教師のソフトラベルを指導することで、生徒の堅牢性を高めることを目的としているが、その成功は不一致である。
本稿では,教師の指導的信頼度と生徒の表現的制約との相違を,一貫した訓練データのサブセットであるロバスト非学習性集合(Robustly Unlearnable Set)に定義する。
本稿では,2層ニューラルネットワークの特徴学習ダイナミクスを解析し,このミスマッチが蒸留結果の二分法を生成することを示す理論的枠組みを提案する。
教師が学習不可能なサンプルに対して自信を持って監督を行うと、学習した頑健な信号に圧倒される突発的なノイズパターンを記憶し、頑健なオーバーフィッティングを促進することが証明される。
逆に、これらのサンプルに高い不確実性を示す教師は、雑音記憶を効果的に抑制し、学習可能な信号のみに頼って、堅牢な一般化を可能にする。
我々は, 教師が学習不可能なサンプルと相互作用することによって, 頑健なオーバーフィッティングが引き起こされることを確認し, 合成シミュレーションと実像分類データセットの両方で理論を実証的に検証した。
最後に、教師の学習不可能なサンプルに対する予測エントロピーが、学生の堅牢性の強い指標となり、理論的枠組みを検証し、堅牢な教師選択のための原則的ガイドラインを提供することを示した。
関連論文リスト
- Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression [27.0471650610245]
スケーリング法則に影響を及ぼし,その後にテストエラーが発生するという意味で,潜在的な改善は極めて重要であることを示す。
厳密には、生徒は教師のスケーリング法則によらず、最小限の最適率を達成することができる。
論文 参考訳(メタデータ) (2026-03-05T21:32:59Z) - Sample-wise Adaptive Weighting for Transfer Consistency in Adversarial Distillation [22.989324947501018]
既存の仕事は、しばしば最先端の堅牢な教師を取り入れることを無視している。
本研究は,教師に対して有効である対人移動可能性(対人移動可能性)を,学生が作成した対人関係の事例のごく一部として同定する。
そこで本研究では, 追加の計算コストを発生させることなく, 測定されたトランスファー可能性によってトレーニング例を再重み付けする, サンプルワイド適応型アダプティブ・アダプティブ・ディスタンス(SAAD)を提案する。
論文 参考訳(メタデータ) (2025-12-11T04:31:04Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Achieving Adversarial Robustness Requires An Active Teacher [8.193914488276468]
学習データから教師の十分な情報を得ることができないため,敵対的な事例が存在すると主張する。
頑健性を実現するためには,生徒に積極的に情報を提供する教師が必要となる。
論文 参考訳(メタデータ) (2020-12-14T03:27:50Z) - Feature Distillation With Guided Adversarial Contrastive Learning [41.28710294669751]
本研究は,教師から生徒へ対人ロバスト性を伝えるためのGACD ( Guided Adversarial Contrastive Distillation) を提案する。
アンカーとして訓練された教師モデルでは,教師に類似した特徴を抽出することが期待されている。
GACDでは、生徒は頑丈な特徴を抽出することを学ぶだけでなく、教師からの構造的知識も取得する。
論文 参考訳(メタデータ) (2020-09-21T14:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。