論文の概要: Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer
- arxiv url: http://arxiv.org/abs/2311.14307v1
- Date: Fri, 24 Nov 2023 06:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:50:48.180800
- Title: Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer
- Title(参考訳): 個別クラス情報伝達のためのコサイン類似性知識蒸留
- Authors: Gyeongdo Ham, Seonghak Kim, Suin Lee, Jae-Hyeok Lee, and Daeshik Kim
- Abstract要約: 本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
- 参考スコア(独自算出の注目度): 11.544799404018473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous logits-based Knowledge Distillation (KD) have utilized predictions
about multiple categories within each sample (i.e., class predictions) and have
employed Kullback-Leibler (KL) divergence to reduce the discrepancy between the
student and teacher predictions. Despite the proliferation of KD techniques,
the student model continues to fall short of achieving a similar level as
teachers. In response, we introduce a novel and effective KD method capable of
achieving results on par with or superior to the teacher models performance. We
utilize teacher and student predictions about multiple samples for each
category (i.e., batch predictions) and apply cosine similarity, a commonly used
technique in Natural Language Processing (NLP) for measuring the resemblance
between text embeddings. This metric's inherent scale-invariance property,
which relies solely on vector direction and not magnitude, allows the student
to dynamically learn from the teacher's knowledge, rather than being bound by a
fixed distribution of the teacher's knowledge. Furthermore, we propose a method
called cosine similarity weighted temperature (CSWT) to improve the
performance. CSWT reduces the temperature scaling in KD when the cosine
similarity between the student and teacher models is high, and conversely, it
increases the temperature scaling when the cosine similarity is low. This
adjustment optimizes the transfer of information from the teacher to the
student model. Extensive experimental results show that our proposed method
serves as a viable alternative to existing methods. We anticipate that this
approach will offer valuable insights for future research on model compression.
- Abstract(参考訳): これまでのkd(logits-based knowledge distillation)では,各サンプル内の複数のカテゴリの予測(クラス予測)を活用し,kullback-leibler(kl)のダイバージェンスを用いて,生徒と教師の予測の相違を低減している。
KD技術の普及にもかかわらず、学生モデルは教師と同様のレベルに達するには至っていない。
そこで本研究では,教師モデルの性能と同等以上の結果が得られる新規かつ効果的なKD手法を提案する。
我々は,各カテゴリの複数のサンプル(例えばバッチ予測)に関する教師と学生の予測を利用し,テキスト埋め込みの類似性を測定するために自然言語処理(NLP)においてよく用いられるコサイン類似性を適用した。
この計量の固有のスケール不変性は、大きさではなくベクトル方向のみに依存しており、教師の知識の一定の分布に縛られるのではなく、教師の知識から動的に学習することができる。
さらに,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
CSWTは、学生モデルと教師モデルとのコサイン類似度が高い場合のKDの温度スケーリングを低減し、逆に、コサイン類似度が低い場合の温度スケーリングを増加させる。
この調整は、教師から生徒モデルへの情報の転送を最適化する。
実験結果から,提案手法は既存手法の代替として有効であることが示唆された。
このアプローチは将来のモデル圧縮研究に貴重な洞察を与えるだろうと期待する。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文 参考訳(メタデータ) (2022-05-21T08:30:58Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。