論文の概要: Asymmetric Temperature Scaling Makes Larger Networks Teach Well Again
- arxiv url: http://arxiv.org/abs/2210.04427v2
- Date: Tue, 11 Oct 2022 05:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 11:20:20.173296
- Title: Asymmetric Temperature Scaling Makes Larger Networks Teach Well Again
- Title(参考訳): 温度の非対称なスケーリングは、ネットワークをもっと大きくする
- Authors: Xin-Chun Li, Wen-Shu Fan, Shaoming Song, Yinchuan Li, Bingshuai Li,
Yunfeng Shao, De-Chuan Zhan
- Abstract要約: 知識蒸留(KD)は、ニューラルネットワークの知識をより弱いものに伝達することを目的としている。
非対称温度スケーリング(ATS)は、正しい/強いクラスに高い/低い温度を別々に適用する。
理論的解析と広範囲な実験により,ATSの有効性が示された。
- 参考スコア(独自算出の注目度): 27.560005691668223
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge Distillation (KD) aims at transferring the knowledge of a
well-performed neural network (the {\it teacher}) to a weaker one (the {\it
student}). A peculiar phenomenon is that a more accurate model doesn't
necessarily teach better, and temperature adjustment can neither alleviate the
mismatched capacity. To explain this, we decompose the efficacy of KD into
three parts: {\it correct guidance}, {\it smooth regularization}, and {\it
class discriminability}. The last term describes the distinctness of {\it wrong
class probabilities} that the teacher provides in KD. Complex teachers tend to
be over-confident and traditional temperature scaling limits the efficacy of
{\it class discriminability}, resulting in less discriminative wrong class
probabilities. Therefore, we propose {\it Asymmetric Temperature Scaling
(ATS)}, which separately applies a higher/lower temperature to the
correct/wrong class. ATS enlarges the variance of wrong class probabilities in
the teacher's label and makes the students grasp the absolute affinities of
wrong classes to the target class as discriminative as possible. Both
theoretical analysis and extensive experimental results demonstrate the
effectiveness of ATS. The demo developed in Mindspore is available at
\url{https://gitee.com/lxcnju/ats-mindspore} and will be available at
\url{https://gitee.com/mindspore/models/tree/master/research/cv/ats}.
- Abstract(参考訳): 知識蒸留(英: knowledge distillation, kd)は、よく発達したニューラルネットワーク("it teacher})の知識をより弱いもの("it student})に移すことを目的としている。
特異な現象は、より正確なモデルが必ずしも良く教えるとは限らないことであり、温度調整は不一致の容量を緩和することもできない。
これを説明するために、KDの有効性を3つの部分に分解する: {\it correct guidance}, {\it smooth regularization}, {\it class discriminability}。
最後の言葉は、教師がkdで提供する「間違ったクラス確率」の区別性を記述する。
複雑な教師は自信過剰であり、伝統的な温度スケーリングは「itクラス判別可能性」の有効性を制限する傾向がある。
そこで,本論文では,より高温度/低温度を正・低温度クラスに別々に適用する非対称温度スケーリング (ats) を提案する。
ATSは、教師のラベルにおける間違ったクラス確率のばらつきを拡大し、生徒に可能な限り、間違ったクラスとターゲットクラスとの絶対的な親和性を把握させる。
理論的解析と広範囲な実験により,ATSの有効性が示された。
mindspore で開発されたデモは \url{https://gitee.com/lxcnju/ats-mindspore} で利用可能であり、 \url{https://gitee.com/mindspore/models/tree/master/research/cv/ats} で利用可能である。
関連論文リスト
- Dynamic Temperature Knowledge Distillation [9.6046915661065]
知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T08:40:52Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step [133.60124577507727]
思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。
オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。
そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるChain-of-Thought Distillation (SCoTD)を紹介した。
論文 参考訳(メタデータ) (2023-06-24T20:15:07Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - Revisiting Label Smoothing and Knowledge Distillation Compatibility:
What was Missing? [38.073798391433634]
本研究は,ラベル平滑化 (LS) と知識蒸留 (KD) の適合性について検討する。
私たちの研究の主な貢献は、体系的な拡散の発見、分析、検証である。
論文 参考訳(メタデータ) (2022-06-29T11:00:44Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z) - Distilling Double Descent [65.85258126760502]
蒸留とは、別の「教師」モデルでラベル付けされた例に基づいた「学生」モデルを訓練する技法である。
教師モデルが非常にパラメータ化されすぎている場合であっても、非常に大きな保持されていないラベル付きデータセットを使用することで、より"伝統的な"アプローチを上回るモデルが生まれます。
論文 参考訳(メタデータ) (2021-02-13T02:26:48Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - SCOUT: Self-aware Discriminant Counterfactual Explanations [78.79534272979305]
対物的視覚的説明の問題点を考察する。
新しい差別的な説明の族が紹介される。
結果として生じる反実的な説明は、最適化が自由で、従って以前の方法よりもはるかに高速である。
論文 参考訳(メタデータ) (2020-04-16T17:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。