論文の概要: ProxylessKD: Direct Knowledge Distillation with Inherited Classifier for
Face Recognition
- arxiv url: http://arxiv.org/abs/2011.00265v1
- Date: Sat, 31 Oct 2020 13:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 05:05:37.021727
- Title: ProxylessKD: Direct Knowledge Distillation with Inherited Classifier for
Face Recognition
- Title(参考訳): ProxylessKD:顔認識のための継承分類器による直接知識蒸留
- Authors: Weidong Shi, Guanghui Ren, Yunpeng Chen, Shuicheng Yan
- Abstract要約: 知識蒸留(KD)とは、大きなモデルから小さなモデルに知識を移すことである。
本研究では,顔認識におけるその応用に焦点を当てる。
本稿では,顔認識の精度を直接最適化するProxylessKDを提案する。
- 参考スコア(独自算出の注目度): 84.49978494275382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) refers to transferring knowledge from a large
model to a smaller one, which is widely used to enhance model performance in
machine learning. It tries to align embedding spaces generated from the teacher
and the student model (i.e. to make images corresponding to the same semantics
share the same embedding across different models). In this work, we focus on
its application in face recognition. We observe that existing knowledge
distillation models optimize the proxy tasks that force the student to mimic
the teacher's behavior, instead of directly optimizing the face recognition
accuracy. Consequently, the obtained student models are not guaranteed to be
optimal on the target task or able to benefit from advanced constraints, such
as large margin constraints (e.g. margin-based softmax). We then propose a
novel method named ProxylessKD that directly optimizes face recognition
accuracy by inheriting the teacher's classifier as the student's classifier to
guide the student to learn discriminative embeddings in the teacher's embedding
space. The proposed ProxylessKD is very easy to implement and sufficiently
generic to be extended to other tasks beyond face recognition. We conduct
extensive experiments on standard face recognition benchmarks, and the results
demonstrate that ProxylessKD achieves superior performance over existing
knowledge distillation methods.
- Abstract(参考訳): 知識蒸留(KD)とは、大きなモデルから小さなモデルに知識を移すことであり、機械学習におけるモデル性能を高めるために広く使われている。
教師と生徒モデルから生成された埋め込み空間(すなわち、同じ意味論に対応するイメージを異なるモデル間で同じ埋め込みを共有する)を整列させようとする。
本研究では,顔認識におけるその応用に焦点を当てる。
既存の知識蒸留モデルでは, 顔の認識精度を直接最適化するのではなく, 生徒に教師の行動を模倣させるプロキシタスクを最適化する。
したがって、得られた学生モデルは、対象タスクにおいて最適である、あるいは大きなマージン制約(例えばマージンベースソフトマックス)のような高度な制約の恩恵を受けることができない。
次に,教師の分類器を学生の分類器として継承し,教師の埋め込み空間における識別的埋め込みの学習を促すことによって,顔認識の精度を直接最適化するProxylessKDを提案する。
提案されたProxylessKDは実装が非常に簡単で、顔認識以外のタスクにも拡張できるほど汎用的である。
我々は,標準顔認識ベンチマークに関する広範囲な実験を行い,proxylesskdが既存の知識蒸留法よりも優れた性能を達成できることを実証した。
関連論文リスト
- AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition [8.045296450065019]
知識蒸留は、高性能な教師モデルから知識を蒸留することで、コンパクトな学生モデルの性能を向上させることを目的としている。
AdaDistillはKDの概念をソフトマックスの損失に組み込み、教師から蒸留されたクラスセンターでマージンペナルティのソフトマックスの損失を学習する。
大規模な実験とアブレーション研究により、AdaDistillは生徒の差別的学習能力を高めることができることが示された。
論文 参考訳(メタデータ) (2024-07-01T14:39:55Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Evaluation-oriented Knowledge Distillation for Deep Face Recognition [19.01023156168511]
本研究では,教師モデルと学生モデルのパフォーマンスギャップを直接軽減するために,深層顔認識のための新しい評価指向KD法を提案する。
EKDは顔認識において一般的に用いられる評価指標、すなわち偽陽性率(FPR)と真陽性率(TPR)をパフォーマンス指標として用いている。
論文 参考訳(メタデータ) (2022-06-06T02:49:40Z) - CoupleFace: Relation Matters for Face Recognition Distillation [26.2626768462705]
本稿では,CoupleFaceと呼ばれる効果的な顔認識蒸留法を提案する。
まず,情報的相互関係を抽出し,教師モデルの相互関係知識を学生モデルに伝達するために,関係意識蒸留(RAD)損失を導入することを提案する。
提案したCoupleFaceに基づいて,ICCV21 Masked Face Recognition Challenge (MS1M track)で優勝した。
論文 参考訳(メタデータ) (2022-04-12T03:25:42Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。