論文の概要: Spot-adaptive Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2205.02399v1
- Date: Thu, 5 May 2022 02:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 04:46:33.035767
- Title: Spot-adaptive Knowledge Distillation
- Title(参考訳): スポット適応型知識蒸留
- Authors: Jie Song, Ying Chen, Jingwen Ye, Mingli Song
- Abstract要約: 我々はスポット適応型KD(SAKD)と呼ばれる新しい蒸留戦略を提案する。
SAKDは、全蒸留期間中のトレーニングイテレーション毎に、サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する。
SAKDの有効性を実証するために10種類の最先端蒸留器を用いた実験を行った。
- 参考スコア(独自算出の注目度): 39.23627955442595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has become a well established paradigm for
compressing deep neural networks. The typical way of conducting knowledge
distillation is to train the student network under the supervision of the
teacher network to harness the knowledge at one or multiple spots (i.e.,
layers) in the teacher network. The distillation spots, once specified, will
not change for all the training samples, throughout the whole distillation
process. In this work, we argue that distillation spots should be adaptive to
training samples and distillation epochs. We thus propose a new distillation
strategy, termed spot-adaptive KD (SAKD), to adaptively determine the
distillation spots in the teacher network per sample, at every training
iteration during the whole distillation period. As SAKD actually focuses on
"where to distill" instead of "what to distill" that is widely investigated by
most existing works, it can be seamlessly integrated into existing distillation
methods to further improve their performance. Extensive experiments with 10
state-of-the-art distillers are conducted to demonstrate the effectiveness of
SAKD for improving their distillation performance, under both homogeneous and
heterogeneous distillation settings. Code is available at
https://github.com/zju-vipa/spot-adaptive-pytorch
- Abstract(参考訳): 知識蒸留(KD)はディープニューラルネットワークの圧縮のパラダイムとして確立されている。
知識蒸留を行う典型的な方法は、教師ネットワークの監督の下で生徒ネットワークを訓練し、教師ネットワーク内の1つまたは複数の場所(すなわち層)で知識を活用することである。
蒸留スポットは一度指定すれば、蒸留プロセス全体を通してすべてのトレーニングサンプルに対して変更されない。
本研究では, 蒸留スポットは, 試料採取と蒸留エポックの訓練に適応するべきであると論じる。
そこで本研究では,全蒸留期間中のトレーニングイテレーション毎に,サンプルごとの教師ネットワーク内の蒸留スポットを適応的に決定する,新しい蒸留戦略であるスポット適応型KD(SAKD)を提案する。
SAKDは、既存のほとんどの研究で広く研究されている「蒸留する場所」ではなく「蒸留する場所」に焦点を当てているため、既存の蒸留法にシームレスに統合して性能を向上することができる。
均質蒸留および不均質蒸留条件下でのsakdの蒸留性能向上効果を実証するために, 最新の10種類の蒸留器を用いた広範な実験を行った。
コードはhttps://github.com/zju-vipa/spot-adaptive-pytorchで入手できる。
関連論文リスト
- Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Survey on Recent Teacher-student Learning Studies [0.0]
知識蒸留は、複雑なディープニューラルネットワーク(DNN)からより小さくより高速なDNNに知識を伝達する方法である。
近年の知識蒸留には、補助蒸留、カリキュラム蒸留、マスク蒸留、デカップリング蒸留などがある。
論文 参考訳(メタデータ) (2023-04-10T14:30:28Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - PROD: Progressive Distillation for Dense Retrieval [65.83300173604384]
良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。
本稿では,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
論文 参考訳(メタデータ) (2022-09-27T12:40:29Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:07:47Z) - Controlling the Quality of Distillation in Response-Based Network
Compression [0.0]
圧縮ネットワークの性能は蒸留の品質によって管理される。
教師と学生のペアは、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができる。
論文 参考訳(メタデータ) (2021-12-19T02:53:51Z) - Prime-Aware Adaptive Distillation [27.66963552145635]
知識蒸留は、強力な教師ネットワークからの知識を模倣することで、学生ネットワークの性能を向上させることを目的としている。
従来の有効なハードマイニング法は蒸留には適していない。
プライム・アウェア・アダプティブ蒸留(PAD)は、蒸留におけるプライマーサンプルを知覚し、それらの効果を適応的に強調する。
論文 参考訳(メタデータ) (2020-08-04T10:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。