論文の概要: On student-teacher deviations in distillation: does it pay to disobey?
- arxiv url: http://arxiv.org/abs/2301.12923v2
- Date: Tue, 1 Aug 2023 04:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:56:44.926858
- Title: On student-teacher deviations in distillation: does it pay to disobey?
- Title(参考訳): 蒸留における教師の逸脱について--不服従にかかわるのか?
- Authors: Vaishnavh Nagarajan, Aditya Krishna Menon, Srinadh Bhojanapalli,
Hossein Mobahi, Sanjiv Kumar
- Abstract要約: 知識蒸留(KD)は、学生が訓練された「教師」ネットワークのソフトな確率を模倣するように訓練することで、学生のネットワークのテスト精度を向上させるために広く利用されている。
しかし、近年の研究では、教師の確率に合うように訓練されているにもかかわらず、学生はこれらの確率から著しく逸脱するだけでなく、教師よりも優れたパフォーマンスを発揮することが示されている。
本研究は,学生と教師の偏差の正確な性質を特徴付けることによって,この一見パラドックス的な観察を再現することを目的としている。
- 参考スコア(独自算出の注目度): 65.50375609513323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has been widely-used to improve the test accuracy
of a ``student'' network by training the student to mimic soft probabilities of
a trained "teacher" network. Yet, it has been shown in recent work that,
despite being trained to fit the teacher's probabilities, the student not only
significantly deviates from these probabilities, but also performs even better
than the teacher. Our work aims to reconcile this seemingly paradoxical
observation by characterizing the precise nature of the student-teacher
deviations, and by arguing how they can co-occur with better generalization.
First, through experiments on image and language data, we identify that these
deviations correspond to the student systematically exaggerating the confidence
levels of the teacher. Next, we theoretically and empirically establish in some
simple settings that KD also exaggerates the implicit bias of gradient descent
in converging faster along the top eigendirections of the data. Finally, we
demonstrate that this exaggerated bias effect can simultaneously result in both
(a) the exaggeration of confidence and (b) the improved generalization of the
student, thus offering a resolution to the apparent paradox. Our analysis
brings existing theory and practice closer by considering the role of gradient
descent in KD and by demonstrating the exaggerated bias effect in both
theoretical and empirical settings.
- Abstract(参考訳): 知識蒸留(kd)は,訓練された「教師」ネットワークのソフトな確率を模倣するように学生に訓練することで,「学生」ネットワークのテスト精度を向上させるために広く用いられている。
しかし、近年の研究では、教師の確率に合致するように訓練されているにもかかわらず、生徒はこれらの確率から著しく逸脱するだけでなく、教師よりも成績が良いことが示されている。
本研究は,学生と教師の偏差の正確な性質を特徴付けることによって,この一見パラドックス的な観察を再現することを目的としている。
まず,画像と言語データを用いた実験により,教師の信頼度レベルを体系的に誇張する生徒と,これらの偏差が一致していることを明らかにする。
次に、kd が勾配降下の暗黙のバイアスを誇張し、データの最上位固有方向に沿ってより高速に収束させるという単純な設定で理論的および経験的に確立する。
最後に、この誇張バイアス効果が同時に両方の結果をもたらすことを示す。
(a)自信の誇張と
b) 学生の一般化が向上し, 明らかなパラドックスに対する解決法が提供される。
本分析は,kdにおける勾配降下の役割を考察し,理論的および経験的場面において過大なバイアス効果を示すことにより,既存の理論と実践をより深めている。
関連論文リスト
- Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch [36.2630998911642]
本論文は,異なる能力を持つ教師が提供する暗黒の知識を深く掘り下げるものである。
ダークナレッジの違いは、キャパシティミスマッチという特別な現象につながります。
論文 参考訳(メタデータ) (2024-05-21T04:43:15Z) - Why does Knowledge Distillation Work? Rethink its Attention and Fidelity Mechanism [8.322293031346161]
パラドキカルな研究は、教師の行動を忠実に再現することは、生徒の一般化を一貫して改善しないことを示している。
我々は,この低忠実度現象を,KD訓練時の病理学よりも基礎的な特徴として提案する。
論文 参考訳(メタデータ) (2024-04-30T01:12:32Z) - Good Teachers Explain: Explanation-Enhanced Knowledge Distillation [52.498055901649025]
知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。
本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。
シンプルで直感的なアイデアであるにもかかわらず、提案した「説明強調」KDは、精度と生徒と教師の合意の点で、一貫して大きな利益をもたらしている。
論文 参考訳(メタデータ) (2024-02-05T15:47:54Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Evaluation-oriented Knowledge Distillation for Deep Face Recognition [19.01023156168511]
本研究では,教師モデルと学生モデルのパフォーマンスギャップを直接軽減するために,深層顔認識のための新しい評価指向KD法を提案する。
EKDは顔認識において一般的に用いられる評価指標、すなわち偽陽性率(FPR)と真陽性率(TPR)をパフォーマンス指標として用いている。
論文 参考訳(メタデータ) (2022-06-06T02:49:40Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。