論文の概要: Grouped Knowledge Distillation for Deep Face Recognition
- arxiv url: http://arxiv.org/abs/2304.04462v1
- Date: Mon, 10 Apr 2023 09:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 15:38:28.939140
- Title: Grouped Knowledge Distillation for Deep Face Recognition
- Title(参考訳): 深層顔認識のためのグループ化知識蒸留
- Authors: Weisong Zhao, Xiangyu Zhu, Kaiwen Guo, Xiao-Yu Zhang, Zhen Lei
- Abstract要約: 軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
- 参考スコア(独自算出の注目度): 53.57402723008569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with the feature-based distillation methods, logits distillation can
liberalize the requirements of consistent feature dimension between teacher and
student networks, while the performance is deemed inferior in face recognition.
One major challenge is that the light-weight student network has difficulty
fitting the target logits due to its low model capacity, which is attributed to
the significant number of identities in face recognition. Therefore, we seek to
probe the target logits to extract the primary knowledge related to face
identity, and discard the others, to make the distillation more achievable for
the student network. Specifically, there is a tail group with near-zero values
in the prediction, containing minor knowledge for distillation. To provide a
clear perspective of its impact, we first partition the logits into two groups,
i.e., Primary Group and Secondary Group, according to the cumulative
probability of the softened prediction. Then, we reorganize the Knowledge
Distillation (KD) loss of grouped logits into three parts, i.e., Primary-KD,
Secondary-KD, and Binary-KD. Primary-KD refers to distilling the primary
knowledge from the teacher, Secondary-KD aims to refine minor knowledge but
increases the difficulty of distillation, and Binary-KD ensures the consistency
of knowledge distribution between teacher and student. We experimentally found
that (1) Primary-KD and Binary-KD are indispensable for KD, and (2)
Secondary-KD is the culprit restricting KD at the bottleneck. Therefore, we
propose a Grouped Knowledge Distillation (GKD) that retains the Primary-KD and
Binary-KD but omits Secondary-KD in the ultimate KD loss calculation. Extensive
experimental results on popular face recognition benchmarks demonstrate the
superiority of proposed GKD over state-of-the-art methods.
- Abstract(参考訳): 特徴点蒸留法と比較すると,ロジッツ蒸留は教師と生徒のネットワーク間の一貫した特徴次元の要求を自由化できるが,その性能は顔認識では劣っていると考えられる。
1つの大きな課題は、軽量の学生ネットワークは、顔認識におけるかなりの数のアイデンティティに起因するモデル能力の低いため、ターゲットロジットの適合が難しいことである。
そこで本研究では,対象のロジットを調査し,顔同一性に関する一次知識を抽出し,他を破棄し,留学生ネットワークにおいて蒸留をより実現可能にすることを目的とする。
具体的には、予測にほぼゼロに近い値を持つ尾群が存在し、蒸留に関するマイナーな知識を含んでいる。
その影響を明確に見極めるために,まず,軟化予測の累積確率に応じて,ロジットを2つのグループ,すなわち一次群と二次群に分けた。
そこで我々は,グループログの知識蒸留(KD)損失を,プライマリKD,セカンダリKD,バイナリKDの3つの部分に再編成した。
初等KDは教師から一次知識を蒸留することであり、中等KDは小さな知識を洗練させようとするが、蒸留の難しさを増し、二等KDは教師と生徒の知識分布の整合性を確保する。
その結果,(1)プライマリ・KDとバイナリ・KDはKDに必須であり,(2)セカンダリ・KDはボトルネックにおけるKDの制限要因であることがわかった。
そこで本研究では, 一次KDと二元KDを保持するが, 究極のKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
一般的な顔認識ベンチマークにおける広範囲な実験結果から,gkdは最先端手法よりも優れていることが示された。
関連論文リスト
- CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection [84.59710875536364]
知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。
そこで本研究では,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる簡易かつ効果的な蒸留方式を提案する。
われわれのCrossKDは、GFL ResNet-50の平均精度を40.2から43.7まで1倍に向上させ、オブジェクト検出のための既存のKDメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-06-20T08:19:51Z) - Gradient-Guided Knowledge Distillation for Object Detectors [3.236217153362305]
グラディエント誘導型知識蒸留(GKD)という,物体検出における知識蒸留の新しい手法を提案する。
我々のGKDは勾配情報を用いて、検出損失に大きな影響を及ぼす特徴を識別し、割り当て、生徒が教師から最も関連性の高い特徴を学習できるようにする。
KITTIとCOCO-Trafficデータセットの実験は、対象検出のための知識蒸留における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-07T21:09:09Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:07:47Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Orderly Dual-Teacher Knowledge Distillation for Lightweight Human Pose
Estimation [1.0323063834827415]
そこで我々は,異なる能力を持つ2人の教師からなる,秩序ある二重教師知識蒸留(ODKD)フレームワークを提案する。
両教師をまとめて、知識の吸収性を促進するための秩序ある学習戦略を提案する。
提案するodkdは異なる軽量モデルの性能を大きなマージンで向上させ,hrnet-w16は軽量なポーズ推定のための最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-04-21T08:50:36Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。