論文の概要: MST-KD: Multiple Specialized Teachers Knowledge Distillation for Fair Face Recognition
- arxiv url: http://arxiv.org/abs/2408.16563v1
- Date: Thu, 29 Aug 2024 14:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:33:01.487256
- Title: MST-KD: Multiple Specialized Teachers Knowledge Distillation for Fair Face Recognition
- Title(参考訳): MST-KD:フェアフェイス認識のための複数の専門教員の知識蒸留
- Authors: Eduarda Caldeira, Jaime S. Cardoso, Ana F. Sequeira, Pedro C. Neto,
- Abstract要約: 我々は4人の教師を1つの特定の民族で訓練し、4人の高度に専門的で偏見のある教師に導いた。
我々の戦略は、これらの4人の教師のプロジェクトを共通の空間に学習し、その情報を学生ネットワークに蒸留する。
- 参考スコア(独自算出の注目度): 2.762397703396293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As in school, one teacher to cover all subjects is insufficient to distill equally robust information to a student. Hence, each subject is taught by a highly specialised teacher. Following a similar philosophy, we propose a multiple specialized teacher framework to distill knowledge to a student network. In our approach, directed at face recognition use cases, we train four teachers on one specific ethnicity, leading to four highly specialized and biased teachers. Our strategy learns a project of these four teachers into a common space and distill that information to a student network. Our results highlighted increased performance and reduced bias for all our experiments. In addition, we further show that having biased/specialized teachers is crucial by showing that our approach achieves better results than when knowledge is distilled from four teachers trained on balanced datasets. Our approach represents a step forward to the understanding of the importance of ethnicity-specific features.
- Abstract(参考訳): 学校では、すべての科目をカバーする1人の教師は、生徒に等しく堅牢な情報を蒸留するには不十分である。
そのため、各科目は高度に専門化された教師によって教えられる。
同様の哲学を踏襲して,学生ネットワークに知識を抽出する複数の専門教師フレームワークを提案する。
本手法では, 顔認証のユースケースを対象とし, 4人の教師を1つの特定の民族で訓練し, 高度に専門化され, 偏見のある4人の教師を指導する。
我々の戦略は、これらの4人の教師のプロジェクトを共通の空間に学習し、その情報を学生ネットワークに蒸留する。
その結果,すべての実験において,性能の向上とバイアスの低減が示された。
さらに、バランスの取れた4人の教師から知識を抽出した場合よりも、私たちのアプローチがより良い結果が得られることを示すことで、偏見のある教員を持つことが重要であることも示している。
我々のアプローチは、民族特有の特徴の重要性を理解するための一歩である。
関連論文リスト
- Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Adaptive Multi-Teacher Multi-level Knowledge Distillation [11.722728148523366]
適応型多段階知識蒸留学習フレームワーク(AMTML-KD)を提案する。
i)各教師と潜在表現を関連付けて、インスタンスレベルの教師の重要性の重みを適応的に学習する。
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
論文 参考訳(メタデータ) (2021-03-06T08:18:16Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Multi-View Feature Representation for Dialogue Generation with
Bidirectional Distillation [22.14228918338769]
本稿では,一般知識の学習がコンセンサスに到達するアイデアとより一致した,新たなトレーニングフレームワークを提案する。
トレーニング効率を犠牲にすることなく、モデル一般化を効果的に改善します。
論文 参考訳(メタデータ) (2021-02-22T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。