論文の概要: Knowledge Distillation Based on Transformed Teacher Matching
- arxiv url: http://arxiv.org/abs/2402.11148v1
- Date: Sat, 17 Feb 2024 00:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:59:38.005777
- Title: Knowledge Distillation Based on Transformed Teacher Matching
- Title(参考訳): 変換型教師マッチングに基づく知識蒸留
- Authors: Kaixiang Zheng and En-Hui Yang
- Abstract要約: 変換型教師マッチング(TTM)と呼ばれる知識蒸留(KD)の結果として生じる変異について検討する。
温度スケーリングを確率分布のパワー変換として再解釈することにより、TTMが目的関数に固有のR'enyiエントロピー項を持つことを示す。
実験結果から、TTMは、元のKDよりも優れた一般化の訓練を受けた学生に導かれることが示された。
- 参考スコア(独自算出の注目度): 4.567223151852012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a technique to bridge logit matching and probability distribution
matching, temperature scaling plays a pivotal role in knowledge distillation
(KD). Conventionally, temperature scaling is applied to both teacher's logits
and student's logits in KD. Motivated by some recent works, in this paper, we
drop instead temperature scaling on the student side, and systematically study
the resulting variant of KD, dubbed transformed teacher matching (TTM). By
reinterpreting temperature scaling as a power transform of probability
distribution, we show that in comparison with the original KD, TTM has an
inherent R\'enyi entropy term in its objective function, which serves as an
extra regularization term. Extensive experiment results demonstrate that thanks
to this inherent regularization, TTM leads to trained students with better
generalization than the original KD. To further enhance student's capability to
match teacher's power transformed probability distribution, we introduce a
sample-adaptive weighting coefficient into TTM, yielding a novel distillation
approach dubbed weighted TTM (WTTM). It is shown, by comprehensive experiments,
that although WTTM is simple, it is effective, improves upon TTM, and achieves
state-of-the-art accuracy performance. Our source code is available at
https://github.com/zkxufo/TTM.
- Abstract(参考訳): ロジットマッチングと確率分布マッチングを橋渡しする技術として、温度スケーリングは知識蒸留(KD)において重要な役割を果たす。
伝統的に、KDにおける教師のロジットと生徒のロジットの両方に温度スケーリングが適用される。
本稿では,近年の研究成果に動機づけられて,生徒側の温度スケールを下げ,kdの変種であるttm(transform teacher matching)を体系的に研究する。
温度スケーリングを確率分布のパワー変換として再解釈することにより、元のKDと比較して、TTMは目的関数に固有のR'enyiエントロピー項を持ち、余剰正規化項として機能することを示す。
この本質的な正規化により、TTMは元のKDよりも優れた一般化の訓練を受けた学生を導いた。
さらに,教師のパワー変換確率分布に適合する生徒の能力を高めるために,サンプル適応重み付け係数をTTMに導入し,新しい蒸留手法をWTTM(hetered TTM)と呼ぶ。
包括的実験により、WTTMは単純であるが、有効であり、TTMにより改善され、最先端の精度性能が得られることを示した。
ソースコードはhttps://github.com/zkxufo/ttmで入手できます。
関連論文リスト
- Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Dynamic Temperature Knowledge Distillation [9.6046915661065]
知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T08:40:52Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Debiased Distillation by Transplanting the Last Layer [14.861216810146114]
ディープモデルは、後処理のときでさえ、急激な相関を学習することに影響を受けやすい。
DeTT(Debiasing by Teacher Transplanting)という簡単な知識蒸留アルゴリズムを提案する。
DeTTは学生モデルを脱臭し、最悪のグループ精度で一貫してベースラインを上回ります。
論文 参考訳(メタデータ) (2023-02-22T07:41:09Z) - DLTTA: Dynamic Learning Rate for Test-time Adaptation on Cross-domain
Medical Images [56.72015587067494]
DLTTAと呼ばれるテスト時間適応のための新しい動的学習率調整法を提案する。
本手法は,現在最先端のテスト時間適応法よりも一貫した性能向上を図り,有効かつ高速なテスト時間適応を実現する。
論文 参考訳(メタデータ) (2022-05-27T02:34:32Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。