論文の概要: Similarity Transfer for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2103.10047v1
- Date: Thu, 18 Mar 2021 06:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 03:16:02.021878
- Title: Similarity Transfer for Knowledge Distillation
- Title(参考訳): 知識蒸留における類似性伝達
- Authors: Haoran Zhao, Kun Gong, Xin Sun, Junyu Dong and Hui Yu
- Abstract要約: 知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
- 参考スコア(独自算出の注目度): 25.042405967561212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a popular paradigm for learning portable neural
networks by transferring the knowledge from a large model into a smaller one.
Most existing approaches enhance the student model by utilizing the similarity
information between the categories of instance level provided by the teacher
model. However, these works ignore the similarity correlation between different
instances that plays an important role in confidence prediction. To tackle this
issue, we propose a novel method in this paper, called similarity transfer for
knowledge distillation (STKD), which aims to fully utilize the similarities
between categories of multiple samples. Furthermore, we propose to better
capture the similarity correlation between different instances by the mixup
technique, which creates virtual samples by a weighted linear interpolation.
Note that, our distillation loss can fully utilize the incorrect classes
similarities by the mixed labels. The proposed approach promotes the
performance of student model as the virtual sample created by multiple images
produces a similar probability distribution in the teacher and student
networks. Experiments and ablation studies on several public classification
datasets including CIFAR-10,CIFAR-100,CINIC-10 and Tiny-ImageNet verify that
this light-weight method can effectively boost the performance of the compact
student model. It shows that STKD substantially has outperformed the vanilla
knowledge distillation and has achieved superior accuracy over the
state-of-the-art knowledge distillation methods.
- Abstract(参考訳): 知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
既存のアプローチのほとんどは、教師モデルが提供するインスタンスレベルのカテゴリ間の類似性情報を利用することで、学生モデルを強化する。
しかし、これらの研究は信頼度予測において重要な役割を果たす異なるインスタンス間の類似性相関を無視している。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達(stkd)と呼ばれる新しい手法を提案する。
さらに,重み付き線形補間により仮想サンプルを生成するmixup手法により,異なるインスタンス間の類似度相関をよりよく捉えることを提案する。
なお, 蒸留損失は混合ラベルによる不正確なクラス類似性を十分に活用できる。
提案手法は,複数の画像から作成した仮想サンプルが教師と生徒のネットワークで同様の確率分布を生成するため,学生モデルの性能を高める。
CIFAR-10,CIFAR-100,CINIC-10,Tiny-ImageNetなどの公開分類データセットの実験とアブレーション実験により,この軽量化により,コンパクトな学生モデルの性能が向上することが確認された。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
関連論文リスト
- Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - CORSD: Class-Oriented Relational Self Distillation [16.11986532440837]
知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。
制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-28T16:00:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Contrastive Principal Component Learning: Modeling Similarity by
Augmentation Overlap [50.48888534815361]
コントラシブ・プリンシパル・コンポーネント・ラーニング(CPCL)手法を提案する。
CPCLにより、学習された低次元埋め込みは、標本間の増大分布の類似性を理論的に保存する。
論文 参考訳(メタデータ) (2022-06-01T13:03:58Z) - Relational Self-Supervised Learning [84.08307840814044]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。
提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。
実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-16T16:14:19Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Triplet Loss for Knowledge Distillation [2.683996597055128]
知識蒸留の目的は,教師モデルと学生モデルとの類似性を高めることである。
計量学習では、類似したサンプルの出力の類似性を高めるモデルを構築する方法が研究されている。
メトリック学習は,異なる出力の差を明らかにすることができ,学生モデルの性能を向上させることができると考えている。
論文 参考訳(メタデータ) (2020-04-17T08:48:29Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。