論文の概要: Exploring the Connection between Knowledge Distillation and Logits
Matching
- arxiv url: http://arxiv.org/abs/2109.06458v1
- Date: Tue, 14 Sep 2021 05:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:50:55.370456
- Title: Exploring the Connection between Knowledge Distillation and Logits
Matching
- Title(参考訳): 知識蒸留と論理マッチングの関連性を探る
- Authors: Defang Chen, Can Wang, Yan Feng, Chun Chen
- Abstract要約: 知識蒸留はモデル圧縮のための一般化ロジットマッチング手法である。
本稿では、textitinfinity temperature$のみを用いて、知識蒸留の効果が余分な正規化と一致するロジットに等しいことを証明した。
- 参考スコア(独自算出の注目度): 20.185140057136614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a generalized logits matching technique for model
compression. Their equivalence is previously established on the condition of
$\textit{infinity temperature}$ and $\textit{zero-mean normalization}$. In this
paper, we prove that with only $\textit{infinity temperature}$, the effect of
knowledge distillation equals to logits matching with an extra regularization.
Furthermore, we reveal that an additional weaker condition --
$\textit{equal-mean initialization}$ rather than the original
$\textit{zero-mean normalization}$ already suffices to set up the equivalence.
The key to our proof is we realize that in modern neural networks with the
cross-entropy loss and softmax activation, the mean of back-propagated gradient
on logits always keeps zero.
- Abstract(参考訳): 知識蒸留はモデル圧縮のための一般化ロジットマッチング手法である。
その等価性は以前、$\textit{infinity temperature}$と$\textit{zero-mean normalization}$という条件で確立されていた。
本稿では,$\textit{infinity temperature}$ において,知識蒸留の効果は余分な正規化と一致するロジットに等しいことを証明する。
さらに、追加の弱条件 -$\textit{equal-mean initialization}$ が、元の$\textit{zero-mean normalization}$ よりも既に同値の設定に十分であることが分かる。
我々の証明の鍵は、クロスエントロピー損失とソフトマックスアクティベーションを持つ現代のニューラルネットワークでは、ロジットのバックプロパゲーション勾配の平均が常にゼロであることに気付くことです。
関連論文リスト
- Exploring Feature-based Knowledge Distillation For Recommender System: A Frequency Perspective [4.1752785943044985]
周波数の観点から特徴量に基づく知識蒸留を推奨するために分析する。
我々は,知識重みを再分配することによって重要な知識を強調することを提案する。
広範囲にわたる実験により、FreqDはレコメンダシステムに対する最先端の知識蒸留法よりも一貫して、著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-11-16T02:41:12Z) - Feature Adversarial Distillation for Point Cloud Classification [4.8229512034776]
本稿では, ポイントクラウド蒸留における汎用的対向損失関数であるFeature Adversarial Distillation (FAD)法を提案し, 知識伝達時の損失を低減する。
モデルNet40およびScanObjectNNデータセットの標準点クラウド分類実験において,40倍モデル圧縮における蒸留における知識伝達の情報損失を低減した。
論文 参考訳(メタデータ) (2023-06-25T12:05:46Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Normalized Feature Distillation for Semantic Segmentation [6.882655287146012]
正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。
提案手法は,都市景観,VOC 2012,ADE20Kデータセットのセマンティックセマンティックセマンティックセグメンテーションのための,最先端の蒸留結果を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:54:25Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Distill-VQ: Learning Retrieval Oriented Vector Quantization By
Distilling Knowledge from Dense Embeddings [50.903547893204234]
本稿では,IVF と PQ の学習を知識蒸留フレームワーク内で統合する Distill-VQ を提案する。
VQモジュールは、予測された関連性を再現するために学習される「学生」として扱われる。
これによってDistill-VQは、大量のラベルのないデータから、相当量のトレーニング信号を導き出すことができる。
論文 参考訳(メタデータ) (2022-04-01T03:30:40Z) - Response-based Distillation for Incremental Object Detection [2.337183337110597]
従来の物体検出は漸進的な学習には不適当である。
新しいデータのみを用いて、よく訓練された検出モデルを直接微調整することで、破滅的な忘れを招きます。
本研究では,検出境界ボックスからの学習応答と分類予測に着目した完全応答に基づくインクリメンタル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-10-26T08:07:55Z) - Instance-Conditional Knowledge Distillation for Object Detection [59.56780046291835]
所望の知識を求めるために,インスタンス条件蒸留フレームワークを提案する。
我々は、観測されたインスタンスを条件情報として使用し、検索プロセスをインスタンス条件の復号プロセスとして定式化する。
論文 参考訳(メタデータ) (2021-10-25T08:23:29Z) - Label Assignment Distillation for Object Detection [0.0]
我々は,オブジェクト検出におけるラベル割り当てに着目した,単純だが効果的な知識蒸留手法を考案した。
提案手法は, MSCOCO 2017ベンチマークで有望な結果を示す。
論文 参考訳(メタデータ) (2021-09-16T10:11:58Z) - Leveraging Unlabeled Data for Entity-Relation Extraction through
Probabilistic Constraint Satisfaction [54.06292969184476]
シンボリックドメイン知識の存在下でのエンティティ関係抽出の問題を研究する。
本手法では,論理文の正確な意味を捉える意味的損失を用いる。
低データ体制に焦点をあてて、セマンティックな損失がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-03-20T00:16:29Z) - Distilling Causal Effect of Data in Class-Incremental Learning [109.680987556265]
CIL(Class-Incremental Learning)における破滅的な忘れ方を説明するための因果的枠組みを提案する。
我々は,データ再生や特徴・ラベル蒸留といった既存のアンチフォジット手法を緩和する新しい蒸留法を考案した。
論文 参考訳(メタデータ) (2021-03-02T14:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。