論文の概要: Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy?
- arxiv url: http://arxiv.org/abs/2301.12609v4
- Date: Wed, 25 Oct 2023 03:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 11:10:18.764823
- Title: Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy?
- Title(参考訳): 知識蒸留$\approx$ Label Smoothing: Fact or Fallacy?
- Authors: Md Arafat Sultan
- Abstract要約: トレーニングしたモデルの予測的信頼度を比較することで,手法間の等価性を再検討する。
ほとんどの設定では、KDとLSは完全に反対方向にモデルの信頼性を駆動する。
KDでは、学生は知識だけでなく教師からの信頼も受け継ぎ、古典的な知識伝達の視点を強化している。
- 参考スコア(独自算出の注目度): 6.323424953013902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Originally proposed as a method for knowledge transfer from one model to
another, some recent studies have suggested that knowledge distillation (KD) is
in fact a form of regularization. Perhaps the strongest argument of all for
this new perspective comes from its apparent similarities with label smoothing
(LS). Here we re-examine this stated equivalence between the two methods by
comparing the predictive confidences of the models they train. Experiments on
four text classification tasks involving models of different sizes show that:
(a) In most settings, KD and LS drive model confidence in completely opposite
directions, and (b) In KD, the student inherits not only its knowledge but also
its confidence from the teacher, reinforcing the classical knowledge transfer
view.
- Abstract(参考訳): 元々は、あるモデルから別のモデルへの知識伝達の方法として提案されていたが、近年の研究では、知識蒸留(KD)が実際に正則化の一形態であることを示唆している。
この新しい観点からの最も強い議論は、ラベルスムーシング(LS)との明らかな類似性である。
ここでは、トレーニングしたモデルの予測信頼度を比較することにより、この2つの方法間の等価性を再検討する。
異なるサイズのモデルを含む4つのテキスト分類タスクの実験では、以下のことが示される。
(a)ほとんどの環境では、KDとLSが全く反対方向にモデルの信頼性を駆動し、
b)KDでは,学生は知識だけでなく,教師からの信頼も受け継ぎ,古典的知識伝達の視点を強化している。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - On the Impact of Knowledge Distillation for Model Interpretability [22.18694053092722]
知識蒸留(KD)は、解釈可能性とモデルの精度を高める。
本研究は,教師から生徒モデルへ伝達されるクラス類似性情報に対する解釈可能性の向上に寄与する。
本研究により, 大規模モデルによるKDモデルは, 様々な分野において, より信頼性の高い利用が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-05-25T05:35:11Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Adaptively Integrated Knowledge Distillation and Prediction Uncertainty
for Continual Learning [71.43841235954453]
現在のディープラーニングモデルは、新しい知識を継続的に学習するときに、古い知識を破滅的に忘れることに悩まされることが多い。
この問題を軽減する既存の戦略は、古い知識(安定性)の維持と新しい知識(塑性)の学習のトレードオフを解消することが多い。
論文 参考訳(メタデータ) (2023-01-18T05:36:06Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Learning Interpretation with Explainable Knowledge Distillation [28.00216413365036]
近年、知識蒸留(KD)はモデル圧縮と加速の鍵となる解として検討されている。
そこで本研究では,教師モデルから学生モデルに説明文の情報を伝達する,XDistillationと呼ばれる新しい知識蒸留モデルを提案する。
実験の結果,XDistillation で訓練したモデルは,予測精度および教師モデルへの忠実度の観点から,従来の KD 法で訓練したモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-11-12T21:18:06Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。