論文の概要: Knowledge Distillation Meets Open-Set Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2205.06701v1
- Date: Fri, 13 May 2022 15:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 13:40:00.863079
- Title: Knowledge Distillation Meets Open-Set Semi-Supervised Learning
- Title(参考訳): オープンセット半教師付き学習における知識蒸留
- Authors: Jing Yang, Xiatian Zhu, Adrian Bulat, Brais Martinez, Georgios
Tzimiropoulos
- Abstract要約: 本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
- 参考スコア(独自算出の注目度): 75.59791764353459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing knowledge distillation methods mostly focus on distillation of
teacher's prediction and intermediate activation. However, the structured
representation, which arguably is one of the most critical ingredients of deep
models, is largely overlooked. In this work, we propose a novel {\em
\modelname{}} ({\bf\em \shortname{})} method dedicated for distilling
representational knowledge semantically from a pretrained teacher to a target
student. The key idea is that we leverage the teacher's classifier as a
semantic critic for evaluating the representations of both teacher and student
and distilling the semantic knowledge with high-order structured information
over all feature dimensions. This is accomplished by introducing a notion of
cross-network logit computed through passing student's representation into
teacher's classifier. Further, considering the set of seen classes as a basis
for the semantic space in a combinatorial perspective, we scale \shortname{} to
unseen classes for enabling effective exploitation of largely available,
arbitrary unlabeled training data. At the problem level, this establishes an
interesting connection between knowledge distillation with open-set
semi-supervised learning (SSL). Extensive experiments show that our
\shortname{} outperforms significantly previous state-of-the-art knowledge
distillation methods on both coarse object classification and fine face
recognition tasks, as well as less studied yet practically crucial binary
network distillation. Under more realistic open-set SSL settings we introduce,
we reveal that knowledge distillation is generally more effective than existing
Out-Of-Distribution (OOD) sample detection, and our proposed \shortname{} is
superior over both previous distillation and SSL competitors. The source code
is available at \url{https://github.com/jingyang2017/SRD\_ossl}.
- Abstract(参考訳): 既存の知識蒸留法は主に教師の予測と中間活性化の蒸留に焦点を当てている。
しかし、深層モデルの最も重要な要素の1つである構造化表現は、概ね見過ごされている。
本研究では,教師から対象学生へ意味論的に表現的知識を蒸留することに特化した,新しい「em \modelname{}} ({\bf\em \shortname{})} 法を提案する。
鍵となる考え方は、教師の分類器を意味的批判として活用し、教師と生徒の両方の表現を評価し、全ての特徴次元の高次構造化情報を用いて意味的知識を蒸留することである。
これは、学生の表現を教師の分類器に渡すことによって計算されるクロスネットワークロジットの概念を導入することで達成される。
さらに,複合的な視点における意味空間の基礎として見受けられるクラスの集合を考えると,広く利用可能な任意のラベルなしのトレーニングデータの有効活用を可能にするために,unseenクラスに \shortname{} をスケールする。
問題レベルでは、これはopen-set semi-supervised learning (ssl) による知識蒸留と興味深い関係を確立する。
大規模実験により, 粗い物体分類と微粒な顔認識タスクにおいて, 従来の最先端の知識蒸留法よりも優れており, 同時に, 事実上重要なバイナリネットワーク蒸留法も少ないことがわかった。
より現実的なオープンセットSSL設定では、既存のOf-Distribution(OOD)サンプル検出よりも知識蒸留の方が一般的に有効であることを明らかにし、提案した‘shortname{}’は以前の蒸留とSSLの競合よりも優れている。
ソースコードは \url{https://github.com/jingyang2017/srd\_ossl} で入手できる。
関連論文リスト
- Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Partial to Whole Knowledge Distillation: Progressive Distilling
Decomposed Knowledge Boosts Student Better [18.184818787217594]
我々は、知識分解の新しい概念を導入し、textbfPartialをtextbfWhole textbfKnowledge textbfDistillation(textbfPWKD)パラダイムに転送する。
そして、循環学習率を利用して収束を加速する複数の訓練段階において、事前訓練を受けた教師から知識を部分的に抽出する。
論文 参考訳(メタデータ) (2021-09-26T06:33:25Z) - Class-Balanced Distillation for Long-Tailed Visual Recognition [100.10293372607222]
実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。
本研究では、インスタンスサンプリングで学習した特徴表現が長尾設定では最適とは程遠いという重要な観察を行うことで、新しいフレームワークを提案する。
我々の主な貢献は、知識蒸留を利用して特徴表現を強化する新しい訓練方法である。
論文 参考訳(メタデータ) (2021-04-12T08:21:03Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。