論文の概要: Similarity Transfer for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2103.10047v1
- Date: Thu, 18 Mar 2021 06:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 03:16:02.021878
- Title: Similarity Transfer for Knowledge Distillation
- Title(参考訳): 知識蒸留における類似性伝達
- Authors: Haoran Zhao, Kun Gong, Xin Sun, Junyu Dong and Hui Yu
- Abstract要約: 知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
- 参考スコア(独自算出の注目度): 25.042405967561212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a popular paradigm for learning portable neural
networks by transferring the knowledge from a large model into a smaller one.
Most existing approaches enhance the student model by utilizing the similarity
information between the categories of instance level provided by the teacher
model. However, these works ignore the similarity correlation between different
instances that plays an important role in confidence prediction. To tackle this
issue, we propose a novel method in this paper, called similarity transfer for
knowledge distillation (STKD), which aims to fully utilize the similarities
between categories of multiple samples. Furthermore, we propose to better
capture the similarity correlation between different instances by the mixup
technique, which creates virtual samples by a weighted linear interpolation.
Note that, our distillation loss can fully utilize the incorrect classes
similarities by the mixed labels. The proposed approach promotes the
performance of student model as the virtual sample created by multiple images
produces a similar probability distribution in the teacher and student
networks. Experiments and ablation studies on several public classification
datasets including CIFAR-10,CIFAR-100,CINIC-10 and Tiny-ImageNet verify that
this light-weight method can effectively boost the performance of the compact
student model. It shows that STKD substantially has outperformed the vanilla
knowledge distillation and has achieved superior accuracy over the
state-of-the-art knowledge distillation methods.
- Abstract(参考訳): 知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
既存のアプローチのほとんどは、教師モデルが提供するインスタンスレベルのカテゴリ間の類似性情報を利用することで、学生モデルを強化する。
しかし、これらの研究は信頼度予測において重要な役割を果たす異なるインスタンス間の類似性相関を無視している。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達(stkd)と呼ばれる新しい手法を提案する。
さらに,重み付き線形補間により仮想サンプルを生成するmixup手法により,異なるインスタンス間の類似度相関をよりよく捉えることを提案する。
なお, 蒸留損失は混合ラベルによる不正確なクラス類似性を十分に活用できる。
提案手法は,複数の画像から作成した仮想サンプルが教師と生徒のネットワークで同様の確率分布を生成するため,学生モデルの性能を高める。
CIFAR-10,CIFAR-100,CINIC-10,Tiny-ImageNetなどの公開分類データセットの実験とアブレーション実験により,この軽量化により,コンパクトな学生モデルの性能が向上することが確認された。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
関連論文リスト
- Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。
まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。
カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文 参考訳(メタデータ) (2024-10-18T03:31:00Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - CORSD: Class-Oriented Relational Self Distillation [16.11986532440837]
知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。
制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-28T16:00:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Contrastive Principal Component Learning: Modeling Similarity by
Augmentation Overlap [50.48888534815361]
コントラシブ・プリンシパル・コンポーネント・ラーニング(CPCL)手法を提案する。
CPCLにより、学習された低次元埋め込みは、標本間の増大分布の類似性を理論的に保存する。
論文 参考訳(メタデータ) (2022-06-01T13:03:58Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。