論文の概要: Balance Divergence for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2501.07804v1
- Date: Tue, 14 Jan 2025 03:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:22.527391
- Title: Balance Divergence for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのバランス分散
- Authors: Yafei Qi, Chen Wang, Zhaoning Zhang, Yaping Liu, Yongmin Zhang,
- Abstract要約: 既存の知識蒸留法の多くは、教師ネットワークと学生ネットワーク間のロジット出力確率を模倣するために、Kulback-Leibler分散を用いる。
この欠損は蒸留過程でのロジットの模倣において最適以下の性能をもたらす可能性がある。
本稿では,バランス分散蒸留法という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.971722196386694
- License:
- Abstract: Knowledge distillation has been widely adopted in computer vision task processing, since it can effectively enhance the performance of lightweight student networks by leveraging the knowledge transferred from cumbersome teacher networks. Most existing knowledge distillation methods utilize Kullback-Leibler divergence to mimic the logit output probabilities between the teacher network and the student network. Nonetheless, these methods may neglect the negative parts of the teacher's ''dark knowledge'' because the divergence calculations may ignore the effect of the minute probabilities from the teacher's logit output. This deficiency may lead to suboptimal performance in logit mimicry during the distillation process and result in an imbalance of information acquired by the student network. In this paper, we investigate the impact of this imbalance and propose a novel method, named Balance Divergence Distillation. By introducing a compensatory operation using reverse Kullback-Leibler divergence, our method can improve the modeling of the extremely small values in the negative from the teacher and preserve the learning capacity for the positive. Furthermore, we test the impact of different temperature coefficients adjustments, which may conducted to further balance for knowledge transferring. We evaluate the proposed method on several computer vision tasks, including image classification and semantic segmentation. The evaluation results show that our method achieves an accuracy improvement of 1%~3% for lightweight students on both CIFAR-100 and ImageNet dataset, and a 4.55% improvement in mIoU for PSP-ResNet18 on the Cityscapes dataset. The experiments show that our method is a simple yet highly effective solution that can be smoothly applied to different knowledge distillation methods.
- Abstract(参考訳): コンピュータビジョンタスク処理において知識の蒸留が広く採用されているが、これは、面倒な教師ネットワークから伝達される知識を活用して、軽量な学生ネットワークの性能を効果的に向上できるためである。
既存の知識蒸留法の多くは、教師ネットワークと学生ネットワーク間のロジット出力確率を模倣するために、Kulback-Leibler分散を用いる。
それにもかかわらず、これらの手法は教師の「暗黒知識」の負の部分を無視する可能性がある。なぜなら、分岐計算は教師のロジット出力から微小確率の影響を無視する可能性があるからである。
この欠損は、蒸留過程におけるロジット模倣の最適性能を低下させ、学生ネットワークが取得した情報の不均衡をもたらす可能性がある。
本稿では, この不均衡の影響について検討し, バランス分散蒸留法という新しい手法を提案する。
逆Kulback-Leibler分散を用いた補償操作を導入することで,教師からの負の極小値のモデリングを改善し,正の学習能力を維持することができる。
さらに,知識伝達のバランスを高めるため,異なる温度係数調整の影響を検証した。
画像分類やセマンティックセグメンテーションなどのコンピュータビジョンタスクにおいて,提案手法の評価を行った。
評価の結果,CIFAR-100 と ImageNet の両データセットにおける軽量学生の 1%~3% の精度向上と,Cityscapes データセットにおける PSP-ResNet18 に対する mIoU の 4.55% の改善が得られた。
実験の結果,本手法は単純かつ高効率な解法であり,異なる知識蒸留法にスムーズに適用可能であることがわかった。
関連論文リスト
- Contrastive Representation Distillation via Multi-Scale Feature Decoupling [0.49157446832511503]
知識蒸留は, パラメータサイズを増大させることなく, より小さな学生ネットワークの性能を向上させる技術である。
特徴伝達プロセスにおいて,局所的な特徴を個別に処理し,コントラスト学習と統合するマルチスケールデカップリングを初めて導入する。
提案手法は,計算コストを削減するだけでなく,効率も向上し,シングルバッチサンプルのみを用いた学生ネットワークの性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-09T10:03:18Z) - Improving Knowledge Distillation in Transfer Learning with Layer-wise Learning Rates [6.783548275689542]
本稿では,出力アクティベーションのヤコビアン/アテンション/ヘシアン差の関数として,層ごとの学習パラメータを調整する階層ワイズ学習方式を提案する。
幅広いデータセットに対する学習性能と安定性が改善されました。
論文 参考訳(メタデータ) (2024-07-05T21:35:17Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - Mitigating Accuracy-Robustness Trade-off via Balanced Multi-Teacher Adversarial Distillation [12.39860047886679]
敵対的トレーニングは、敵対的攻撃に対するディープニューラルネットワークの堅牢性を改善するための実践的なアプローチである。
本稿では,B-MTARD(Ba balanced Multi-Teacher Adversarial Robustness Distillation)を導入する。
B-MTARDは、様々な敵攻撃に対して最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-06-28T12:47:01Z) - On effects of Knowledge Distillation on Transfer Learning [0.0]
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-10-18T08:11:52Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Circumventing Outliers of AutoAugment with Knowledge Distillation [102.25991455094832]
AutoAugmentは多くの視覚タスクの精度を向上させる強力なアルゴリズムである。
本論文は作業機構を深く掘り下げ,AutoAugmentがトレーニング画像から識別情報の一部を除去できることを明らかにする。
教師モデルの出力に言及した知識蒸留を用いて,ネットワークトレーニングの指導を行う。
論文 参考訳(メタデータ) (2020-03-25T11:51:41Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。