論文の概要: Extending Label Smoothing Regularization with Self-Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2009.05226v1
- Date: Fri, 11 Sep 2020 04:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 20:59:10.959260
- Title: Extending Label Smoothing Regularization with Self-Knowledge
Distillation
- Title(参考訳): 自己知識蒸留による拡張ラベル平滑化規則化
- Authors: Ji-Yue Wang, Pei Zhang, Wen-feng Pang, Jie Li
- Abstract要約: そこで我々は,LSR法をKD法に拡張し,よりソフトな温度を適用することにより,学習促進のためのアルゴリズムLsrKDを提案する。
LsrKDの性能をさらに向上するため,メモリ再生知識蒸留(MrKD)と呼ばれる自己蒸留法を開発した。
実験の結果,LsrKDは,LSRが非効率ないくつかのディープニューラルネットワークにおいて,LSRの性能を一貫したコストで向上できることがわかった。
- 参考スコア(独自算出の注目度): 11.009345791558601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the strong correlation between the Label Smoothing
Regularization(LSR) and Knowledge distillation(KD), we propose an algorithm
LsrKD for training boost by extending the LSR method to the KD regime and
applying a softer temperature. Then we improve the LsrKD by a Teacher
Correction(TC) method, which manually sets a constant larger proportion for the
right class in the uniform distribution teacher. To further improve the
performance of LsrKD, we develop a self-distillation method named Memory-replay
Knowledge Distillation (MrKD) that provides a knowledgeable teacher to replace
the uniform distribution one in LsrKD. The MrKD method penalizes the KD loss
between the current model's output distributions and its copies' on the
training trajectory. By preventing the model learning so far from its
historical output distribution space, MrKD can stabilize the learning and find
a more robust minimum. Our experiments show that LsrKD can improve LSR
performance consistently at no cost, especially on several deep neural networks
where LSR is ineffectual. Also, MrKD can significantly improve single model
training. The experiment results confirm that the TC can help LsrKD and MrKD to
boost training, especially on the networks they are failed. Overall, LsrKD,
MrKD, and their TC variants are comparable to or outperform the LSR method,
suggesting the broad applicability of these KD methods.
- Abstract(参考訳): ラベル平滑化法(LSR)と知識蒸留法(KD)の相関関係から着想を得て,LSR法をKD法に拡張し,よりソフトな温度で適用することにより,学習促進のためのアルゴリズムLsrKDを提案する。
次に,LsrKDを教師補正法(TC)法で改善し,一様分布教師において,適切なクラスに対して一定の比率を手動で設定する。
LsrKDの性能をさらに向上させるために,LsrKDの均一分布を置き換えるための知識教師を提供するMrKD(Memory-replay Knowledge Distillation)という自己蒸留法を開発した。
MrKD法は、トレーニング軌道上の現行モデルの出力分布とコピー'の間のKD損失をペナルティ化する。
モデル学習を過去の出力分布空間から遠ざけることで、MrKDは学習を安定させ、より堅牢な最小値を求めることができる。
実験の結果,LsrKDは,LSRが非効率ないくつかのディープニューラルネットワークにおいて,LSRの性能を一貫したコストで向上できることがわかった。
また、MrKDはシングルモデルトレーニングを大幅に改善することができる。
実験の結果、TCがLsrKDとMrsKDのトレーニング、特に失敗しているネットワークの強化に役立つことが確認された。
全体として、LsrKD、MrKD、およびそれらのTCの変種はLSR法に匹敵するか、あるいは優れており、これらのKD法の幅広い適用性を示している。
関連論文リスト
- Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Data Upcycling Knowledge Distillation for Image Super-Resolution [25.753554952896096]
知識蒸留(KD)は、教師モデルから生徒モデルへのタスク関連知識の伝達によって、ディープニューラルネットワークを圧縮する。
本稿では,教師モデルの知識を学習者モデルに伝達するために,学習データから得られたドメイン内データを用いて,データリサイクル知識蒸留(DuKD)を提案する。
論文 参考訳(メタデータ) (2023-09-25T14:13:26Z) - Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free
Continual Learning [14.379472108242235]
正規化戦略として知識蒸留(KD)を併用した模範自由クラスインクリメンタルラーニング(CIL)について検討した。
KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。
近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。
論文 参考訳(メタデータ) (2023-08-18T13:22:59Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。