Fugu-MT 論文翻訳(概要): Grouped Knowledge Distillation for Deep Face Recognition

論文の概要: Grouped Knowledge Distillation for Deep Face Recognition

arxiv url: http://arxiv.org/abs/2304.04462v1
Date: Mon, 10 Apr 2023 09:04:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 15:38:28.939140
Title: Grouped Knowledge Distillation for Deep Face Recognition
Title（参考訳）: 深層顔認識のためのグループ化知識蒸留
Authors: Weisong Zhao, Xiangyu Zhu, Kaiwen Guo, Xiao-Yu Zhang, Zhen Lei
Abstract要約: 軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
参考スコア（独自算出の注目度）: 53.57402723008569
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compared with the feature-based distillation methods, logits distillation can liberalize the requirements of consistent feature dimension between teacher and student networks, while the performance is deemed inferior in face recognition. One major challenge is that the light-weight student network has difficulty fitting the target logits due to its low model capacity, which is attributed to the significant number of identities in face recognition. Therefore, we seek to probe the target logits to extract the primary knowledge related to face identity, and discard the others, to make the distillation more achievable for the student network. Specifically, there is a tail group with near-zero values in the prediction, containing minor knowledge for distillation. To provide a clear perspective of its impact, we first partition the logits into two groups, i.e., Primary Group and Secondary Group, according to the cumulative probability of the softened prediction. Then, we reorganize the Knowledge Distillation (KD) loss of grouped logits into three parts, i.e., Primary-KD, Secondary-KD, and Binary-KD. Primary-KD refers to distilling the primary knowledge from the teacher, Secondary-KD aims to refine minor knowledge but increases the difficulty of distillation, and Binary-KD ensures the consistency of knowledge distribution between teacher and student. We experimentally found that (1) Primary-KD and Binary-KD are indispensable for KD, and (2) Secondary-KD is the culprit restricting KD at the bottleneck. Therefore, we propose a Grouped Knowledge Distillation (GKD) that retains the Primary-KD and Binary-KD but omits Secondary-KD in the ultimate KD loss calculation. Extensive experimental results on popular face recognition benchmarks demonstrate the superiority of proposed GKD over state-of-the-art methods.
Abstract（参考訳）: 特徴点蒸留法と比較すると,ロジッツ蒸留は教師と生徒のネットワーク間の一貫した特徴次元の要求を自由化できるが,その性能は顔認識では劣っていると考えられる。 1つの大きな課題は、軽量の学生ネットワークは、顔認識におけるかなりの数のアイデンティティに起因するモデル能力の低いため、ターゲットロジットの適合が難しいことである。そこで本研究では,対象のロジットを調査し,顔同一性に関する一次知識を抽出し,他を破棄し,留学生ネットワークにおいて蒸留をより実現可能にすることを目的とする。具体的には、予測にほぼゼロに近い値を持つ尾群が存在し、蒸留に関するマイナーな知識を含んでいる。その影響を明確に見極めるために,まず,軟化予測の累積確率に応じて,ロジットを2つのグループ,すなわち一次群と二次群に分けた。そこで我々は,グループログの知識蒸留(KD)損失を,プライマリKD,セカンダリKD,バイナリKDの3つの部分に再編成した。初等KDは教師から一次知識を蒸留することであり、中等KDは小さな知識を洗練させようとするが、蒸留の難しさを増し、二等KDは教師と生徒の知識分布の整合性を確保する。その結果,(1)プライマリ・KDとバイナリ・KDはKDに必須であり,(2)セカンダリ・KDはボトルネックにおけるKDの制限要因であることがわかった。そこで本研究では, 一次KDと二元KDを保持するが, 究極のKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。一般的な顔認識ベンチマークにおける広範囲な実験結果から,gkdは最先端手法よりも優れていることが示された。

関連論文リスト

TopKD: Top-scaled Knowledge Distillation [12.589031892370809]
Top-scaled Knowledge Distillation (TopKD)は、ロジットベースの蒸留を大幅に強化するシンプルで効率的でアーキテクチャに依存しないフレームワークである。 CIFAR-100、ImageNet、STL-10、Tiny-ImageNetの実験では、TopKDは最先端の蒸留法を一貫して超越している。
論文参考訳（メタデータ） (2025-08-06T15:26:08Z)
Swapped Logit Distillation via Bi-level Teacher Alignment [32.746586492281104]
知識蒸留(KD)は、大きな(教師)ネットワークからより小さな(学生)ネットワークへ知識を伝達することで、ネットワーク容量を圧縮するスワップロジット蒸留(SLD)によるロジット蒸留を提案する。従来の最先端手法では,SLDが常に最良であることがわかった。
論文参考訳（メタデータ） (2025-04-27T15:52:07Z)
Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。 RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文参考訳（メタデータ） (2024-07-04T08:08:25Z)
AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition [8.045296450065019]
知識蒸留は、高性能な教師モデルから知識を蒸留することで、コンパクトな学生モデルの性能を向上させることを目的としている。 AdaDistillはKDの概念をソフトマックスの損失に組み込み、教師から蒸留されたクラスセンターでマージンペナルティのソフトマックスの損失を学習する。大規模な実験とアブレーション研究により、AdaDistillは生徒の差別的学習能力を高めることができることが示された。
論文参考訳（メタデータ） (2024-07-01T14:39:55Z)
CrossKD: Cross-Head Knowledge Distillation for Object Detection [69.16346256926842]
知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。そこで本研究では,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる蒸留方式を模倣する予測手法を提案する。われわれのCrossKDはGFL ResNet-50の平均精度を40.2から43.7に向上させ、既存のKD手法を上回ります。
論文参考訳（メタデータ） (2023-06-20T08:19:51Z)
Gradient-Guided Knowledge Distillation for Object Detectors [3.236217153362305]
グラディエント誘導型知識蒸留(GKD)という,物体検出における知識蒸留の新しい手法を提案する。我々のGKDは勾配情報を用いて、検出損失に大きな影響を及ぼす特徴を識別し、割り当て、生徒が教師から最も関連性の高い特徴を学習できるようにする。 KITTIとCOCO-Trafficデータセットの実験は、対象検出のための知識蒸留における本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-03-07T21:09:09Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。 TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文参考訳（メタデータ） (2022-03-16T15:07:47Z)
Orderly Dual-Teacher Knowledge Distillation for Lightweight Human Pose Estimation [1.0323063834827415]
そこで我々は,異なる能力を持つ2人の教師からなる,秩序ある二重教師知識蒸留(ODKD)フレームワークを提案する。両教師をまとめて、知識の吸収性を促進するための秩序ある学習戦略を提案する。提案するodkdは異なる軽量モデルの性能を大きなマージンで向上させ,hrnet-w16は軽量なポーズ推定のための最先端の性能を実現する。
論文参考訳（メタデータ） (2021-04-21T08:50:36Z)
Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文参考訳（メタデータ） (2020-12-15T23:43:28Z)
Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。 KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文参考訳（メタデータ） (2020-12-05T00:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。