論文の概要: DOT: A Distillation-Oriented Trainer
- arxiv url: http://arxiv.org/abs/2307.08436v1
- Date: Mon, 17 Jul 2023 12:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:24:09.392291
- Title: DOT: A Distillation-Oriented Trainer
- Title(参考訳): DOT: 蒸留指向型トレーナー
- Authors: Borui Zhao, Quan Cui, Renjie Song and Jiajun Liang
- Abstract要約: 蒸留指向トレーナー(DOT)は、タスクと蒸留損失の間のトレードオフを断ち切る。
DOTは、ResNet50-MobileNetV1ペアのImageNet-1kに対して、2.59%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 7.70065059477635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation transfers knowledge from a large model to a small one
via task and distillation losses. In this paper, we observe a trade-off between
task and distillation losses, i.e., introducing distillation loss limits the
convergence of task loss. We believe that the trade-off results from the
insufficient optimization of distillation loss. The reason is: The teacher has
a lower task loss than the student, and a lower distillation loss drives the
student more similar to the teacher, then a better-converged task loss could be
obtained. To break the trade-off, we propose the Distillation-Oriented Trainer
(DOT). DOT separately considers gradients of task and distillation losses, then
applies a larger momentum to distillation loss to accelerate its optimization.
We empirically prove that DOT breaks the trade-off, i.e., both losses are
sufficiently optimized. Extensive experiments validate the superiority of DOT.
Notably, DOT achieves a +2.59% accuracy improvement on ImageNet-1k for the
ResNet50-MobileNetV1 pair. Conclusively, DOT greatly benefits the student's
optimization properties in terms of loss convergence and model generalization.
Code will be made publicly available.
- Abstract(参考訳): 知識蒸留は、タスクと蒸留損失を通じて、大きなモデルから小さなモデルに知識を転送する。
本稿では,タスク損失と蒸留損失のトレードオフ,すなわち蒸留損失の導入がタスク損失の収束を制限することを観察する。
このトレードオフは蒸留損失の最適化が不十分であると信じている。
理由は,教師が生徒よりもタスクロスが低く,蒸留損失が低いと,生徒は教師によく似ており,より収束したタスクロスが得られるからである。
トレードオフを断ち切るために,蒸留指向トレーナー (DOT) を提案する。
DOTは、タスクと蒸留損失の勾配を別々に考慮し、その最適化を加速するために蒸留損失により大きな運動量を適用する。
我々は、DOTがトレードオフを破ること、すなわち損失が十分に最適化されていることを実証的に証明する。
大規模な実験はDOTの優越性を検証した。
特に、DOTはResNet50-MobileNetV1ペアのImageNet-1kに対して、2.59%の精度向上を実現している。
結論として、DOTは損失収束とモデル一般化の観点から、学生の最適化特性に大きな恩恵を与える。
コードは公開される予定だ。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - What is Lost in Knowledge Distillation? [4.1205832766381985]
ディープニューラルネットワーク(DNN)はNLPタスクを大幅に改善しているが、そのようなネットワークのトレーニングとメンテナンスにはコストがかかる可能性がある。
知識蒸留(KD)のようなモデル圧縮技術がこの問題に対処するために提案されている。
本研究は, 蒸留モデルが教師とどのように異なるか, 蒸留プロセスが何らかの情報損失を引き起こし, 損失が特定のパターンに従うかを検討する。
論文 参考訳(メタデータ) (2023-11-07T17:13:40Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss [32.816725317261934]
本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
論文 参考訳(メタデータ) (2023-03-10T14:46:23Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:07:47Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - Channel Distillation: Channel-Wise Attention for Knowledge Distillation [3.6269274596116476]
本稿では,2つの蒸留方法と損失崩壊戦略を含む新しい蒸留法を提案する。
まず、チャンネル蒸留(CD)が教師から生徒にチャネル情報を転送する。
第二に、指導的知識蒸留(GKD)は、生徒が教師の正しい出力を模倣することしかできない。
論文 参考訳(メタデータ) (2020-06-02T14:59:50Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。