論文の概要: Prime-Aware Adaptive Distillation
- arxiv url: http://arxiv.org/abs/2008.01458v1
- Date: Tue, 4 Aug 2020 10:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:31:14.694383
- Title: Prime-Aware Adaptive Distillation
- Title(参考訳): プライムアウェア適応蒸留
- Authors: Youcai Zhang, Zhonghao Lan, Yuchen Dai, Fangao Zeng, Yan Bai, Jie
Chang, and Yichen Wei
- Abstract要約: 知識蒸留は、強力な教師ネットワークからの知識を模倣することで、学生ネットワークの性能を向上させることを目的としている。
従来の有効なハードマイニング法は蒸留には適していない。
プライム・アウェア・アダプティブ蒸留(PAD)は、蒸留におけるプライマーサンプルを知覚し、それらの効果を適応的に強調する。
- 参考スコア(独自算出の注目度): 27.66963552145635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation(KD) aims to improve the performance of a student
network by mimicing the knowledge from a powerful teacher network. Existing
methods focus on studying what knowledge should be transferred and treat all
samples equally during training. This paper introduces the adaptive sample
weighting to KD. We discover that previous effective hard mining methods are
not appropriate for distillation. Furthermore, we propose Prime-Aware Adaptive
Distillation (PAD) by the incorporation of uncertainty learning. PAD perceives
the prime samples in distillation and then emphasizes their effect adaptively.
PAD is fundamentally different from and would refine existing methods with the
innovative view of unequal training. For this reason, PAD is versatile and has
been applied in various tasks including classification, metric learning, and
object detection. With ten teacher-student combinations on six datasets, PAD
promotes the performance of existing distillation methods and outperforms
recent state-of-the-art methods.
- Abstract(参考訳): 知識蒸留(kd)は,強力な教員ネットワークからの知識を模倣することにより,学生ネットワークのパフォーマンスを向上させることを目的とする。
既存の方法は、どの知識を移行すべきかの研究に焦点を合わせ、トレーニング中にすべてのサンプルを平等に扱う。
本稿では, 適応試料重み付けをKDに導入する。
従来の有効硬質鉱業法は蒸留には適さないことが判明した。
さらに,不確実性学習を取り入れたプライムアウェア適応蒸留(PAD)を提案する。
PADは蒸留における素試料を認識し、その効果を適応的に強調する。
PADは基本的に異なるものであり、不平等なトレーニングという革新的な視点で既存の手法を洗練するだろう。
このため、PADは汎用的で、分類、メートル法学習、物体検出など様々なタスクに応用されている。
PADは6つのデータセットに10の教師/学生の組み合わせを組み込むことで、既存の蒸留法の性能を高め、最近の最先端の方法より優れている。
関連論文リスト
- Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting [5.818420448447701]
適応的知識蒸留(Adaptive Knowledge Distillation, Adaptive Knowledge Distillation)は, カリキュラム学習にインスパイアされた新しい手法であり, 事例レベルでの損失を適応的に評価する。
提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
論文 参考訳(メタデータ) (2024-05-11T15:06:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Adaptive Instance Distillation for Object Detection in Autonomous
Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。
また,AIDは教師モデルの性能向上に有効であることが示された。
論文 参考訳(メタデータ) (2022-01-26T18:06:33Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。