論文の概要: Knowledge Distillation from A Stronger Teacher
- arxiv url: http://arxiv.org/abs/2205.10536v1
- Date: Sat, 21 May 2022 08:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 17:33:40.127738
- Title: Knowledge Distillation from A Stronger Teacher
- Title(参考訳): より強い教師からの知識蒸留
- Authors: Tao Huang, Shan You, Fei Wang, Chen Qian, Chang Xu
- Abstract要約: 本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
- 参考スコア(独自算出の注目度): 44.11781464210916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike existing knowledge distillation methods focus on the baseline
settings, where the teacher models and training strategies are not that strong
and competing as state-of-the-art approaches, this paper presents a method
dubbed DIST to distill better from a stronger teacher. We empirically find that
the discrepancy of predictions between the student and a stronger teacher may
tend to be fairly severer. As a result, the exact match of predictions in KL
divergence would disturb the training and make existing methods perform poorly.
In this paper, we show that simply preserving the relations between the
predictions of teacher and student would suffice, and propose a
correlation-based loss to capture the intrinsic inter-class relations from the
teacher explicitly. Besides, considering that different instances have
different semantic similarities to each class, we also extend this relational
match to the intra-class level. Our method is simple yet practical, and
extensive experiments demonstrate that it adapts well to various architectures,
model sizes and training strategies, and can achieve state-of-the-art
performance consistently on image classification, object detection, and
semantic segmentation tasks. Code is available at:
https://github.com/hunto/DIST_KD .
- Abstract(参考訳): 既存の知識蒸留法とは異なり, 教師のモデルや訓練戦略は最先端のアプローチほど強くなく, 競合するものではないため, 従来の知識蒸留法とは異なり, 強い教師からより良い蒸留を行うためのdistと呼ばれる方法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
その結果、KL分岐における予測の正確な一致は、トレーニングを妨害し、既存の手法の性能を低下させる。
本稿では,教師と生徒の予測関係を単に保存するだけで十分であることを示すとともに,教師から固有のクラス間関係を明示的に捉えるための相関に基づく損失を提案する。
さらに、異なるインスタンスが各クラスに異なる意味的類似性を持っていることを考慮し、この関係性マッチングをクラス内のレベルにまで拡張する。
提案手法は単純かつ実用的であり,様々なアーキテクチャ,モデルサイズ,トレーニング戦略に適応し,画像分類,オブジェクト検出,意味セグメンテーションタスクにおいて一貫して最先端のパフォーマンスを実現することを実証した。
コードはhttps://github.com/hunto/dist_kd。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - Contrastive Knowledge Amalgamation for Unsupervised Image Classification [2.6392087010521728]
Contrastive Knowledge Amalgamation (CKA) は、複数の教師モデルから協調目的を扱うためのコンパクトな学生モデルを学ぶことを目的としている。
クラス内モデルとクラス間モデルとの対比損失は、異なるクラスの表現間の距離を拡大するように設計されている。
このアライメント損失は、共通表現空間における教師/学生モデルのサンプルレベルの分布差を最小限に抑えるために導入された。
論文 参考訳(メタデータ) (2023-07-27T11:21:14Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Feature Distillation With Guided Adversarial Contrastive Learning [41.28710294669751]
本研究は,教師から生徒へ対人ロバスト性を伝えるためのGACD ( Guided Adversarial Contrastive Distillation) を提案する。
アンカーとして訓練された教師モデルでは,教師に類似した特徴を抽出することが期待されている。
GACDでは、生徒は頑丈な特徴を抽出することを学ぶだけでなく、教師からの構造的知識も取得する。
論文 参考訳(メタデータ) (2020-09-21T14:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。