論文の概要: Knowledge distillation via adaptive instance normalization
- arxiv url: http://arxiv.org/abs/2003.04289v1
- Date: Mon, 9 Mar 2020 17:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:15:08.512786
- Title: Knowledge distillation via adaptive instance normalization
- Title(参考訳): 適応インスタンス正規化による知識蒸留
- Authors: Jing Yang, Brais Martinez, Adrian Bulat, Georgios Tzimiropoulos
- Abstract要約: 本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
- 参考スコア(独自算出の注目度): 52.91164959767517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of model compression via knowledge
distillation. To this end, we propose a new knowledge distillation method based
on transferring feature statistics, specifically the channel-wise mean and
variance, from the teacher to the student. Our method goes beyond the standard
way of enforcing the mean and variance of the student to be similar to those of
the teacher through an $L_2$ loss, which we found it to be of limited
effectiveness. Specifically, we propose a new loss based on adaptive instance
normalization to effectively transfer the feature statistics. The main idea is
to transfer the learned statistics back to the teacher via adaptive instance
normalization (conditioned on the student) and let the teacher network
"evaluate" via a loss whether the statistics learned by the student are
reliably transferred. We show that our distillation method outperforms other
state-of-the-art distillation methods over a large set of experimental settings
including different (a) network architectures, (b) teacher-student capacities,
(c) datasets, and (d) domains.
- Abstract(参考訳): 本稿では,知識蒸留によるモデル圧縮の問題に対処する。
そこで本研究では,教師から生徒への特徴統計,特にチャネル単位の平均と分散の伝達に基づく新しい知識蒸留手法を提案する。
本手法は,学生の平均と分散を教師のそれと同等にするために,l_2$の損失を課す標準的な方法に留まらず,その効果は限定的であることが判明した。
具体的には,特徴統計を効果的に伝達するために,適応インスタンス正規化に基づく新たな損失を提案する。
主な考え方は、学習した統計を適応インスタンス正規化(学生に条件付き)を介して教師に転送し、学習した統計が確実に伝達されるかどうかを損失を通じて教師ネットワークを「評価」することである。
我々は, 蒸留方法が, 異なる条件を含む多数の実験的な蒸留方法よりも優れていることを示す。
(a)ネットワークアーキテクチャ
(b)教師学生の能力
(c)データセット、及び
(d)ドメイン。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge
Distillation [37.57793306258625]
学生は、KLの出力分布と教師の出力分布を最小化することにより、教師の模倣を学ぶ。
教師の出力分布と基底真理ラベル分布との間には相違点があることから,このような学習目標が準最適であると論じる。
そこで我々は,まずバニラKLに基づく蒸留損失関数をマクロリン級数で表現し,次に先行項を摂動することで,新しい知識蒸留目的PTLosを提案する。
論文 参考訳(メタデータ) (2023-05-08T19:31:09Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。