論文の概要: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2212.12965v1
- Date: Sun, 25 Dec 2022 22:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:43:24.826683
- Title: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- Title(参考訳): BD-KD:オンライン知識蒸留における多様性のバランス
- Authors: Ibtihel Amara, Nazanin Sepahvand, Brett H. Meyer, Warren J. Gross and
James J. Clark
- Abstract要約: 我々はBD-KD: オンライン知識蒸留のための多様性のバランスをとることを提案する。
逆発散と前方発散の適応的バランスは、訓練戦略の焦点をコンパクトな学生ネットワークにシフトさせることを示す。
本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
- 参考スコア(独自算出の注目度): 12.27903419909491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has gained a lot of attention in the field of
model compression for edge devices thanks to its effectiveness in compressing
large powerful networks into smaller lower-capacity models. Online
distillation, in which both the teacher and the student are learning
collaboratively, has also gained much interest due to its ability to improve on
the performance of the networks involved. The Kullback-Leibler (KL) divergence
ensures the proper knowledge transfer between the teacher and student. However,
most online KD techniques present some bottlenecks under the network capacity
gap. By cooperatively and simultaneously training, the models the KL distance
becomes incapable of properly minimizing the teacher's and student's
distributions. Alongside accuracy, critical edge device applications are in
need of well-calibrated compact networks. Confidence calibration provides a
sensible way of getting trustworthy predictions. We propose BD-KD: Balancing of
Divergences for online Knowledge Distillation. We show that adaptively
balancing between the reverse and forward divergences shifts the focus of the
training strategy to the compact student network without limiting the teacher
network's learning process. We demonstrate that, by performing this balancing
design at the level of the student distillation loss, we improve upon both
performance accuracy and calibration of the compact student network. We
conducted extensive experiments using a variety of network architectures and
show improvements on multiple datasets including CIFAR-10, CIFAR-100,
Tiny-ImageNet, and ImageNet. We illustrate the effectiveness of our approach
through comprehensive comparisons and ablations with current state-of-the-art
online and offline KD techniques.
- Abstract(参考訳): 知識蒸留(KD)は、より小さな低容量のモデルに大容量のネットワークを圧縮する効果により、エッジデバイスに対するモデル圧縮の分野で大きな注目を集めている。
教師と生徒が共同で学習するオンライン蒸留も、ネットワークのパフォーマンスを向上させる能力により、大きな関心を集めている。
Kullback-Leibler (KL) は、教師と生徒の適切な知識伝達を保証する。
しかしながら、ほとんどのオンラインKD技術は、ネットワーク容量ギャップの下でボトルネックを生じさせる。
協調的かつ同時に訓練することにより、KL距離のモデルが教師と生徒の分布を適切に最小化できなくなる。
正確性に加えて、重要なエッジデバイスアプリケーションは、よく校正されたコンパクトネットワークを必要とする。
信頼度校正は、信頼できる予測を得るための賢明な方法を提供する。
BD-KD: オンライン知識蒸留のための分岐のバランスをとることを提案する。
本研究では,教師ネットワークの学習過程に制限を加えることなく,学習戦略の焦点をコンパクトな学生ネットワークに適応的にシフトすることを示す。
本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNet など,様々なネットワークアーキテクチャを用いた広範な実験を行った。
本稿では,最先端のオンラインおよびオフラインkd技術との比較とアブレーションを通して,本手法の有効性を示す。
関連論文リスト
- Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Feature-domain Adaptive Contrastive Distillation for Efficient Single
Image Super-Resolution [3.2453621806729234]
CNNベースのSISRは、多くのパラメータと高い計算コストを持ち、より良い性能を実現している。
知識蒸留(KD)は教師の有用な知識を学生に伝達する。
本稿では,軽量なSISRネットワークを効率的に訓練するための特徴領域適応型コントラスト蒸留(FACD)手法を提案する。
論文 参考訳(メタデータ) (2022-11-29T06:24:14Z) - On effects of Knowledge Distillation on Transfer Learning [0.0]
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-10-18T08:11:52Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Online Continual Learning with Contrastive Vision Transformer [67.72251876181497]
本稿では,オンラインCLの安定性と塑性のトレードオフを改善するために,CVT(Contrastive Vision Transformer)フレームワークを提案する。
具体的には、従来のタスクに関する情報を暗黙的にキャプチャするオンラインCLのための新しい外部アテンション機構を設計する。
学習可能な焦点に基づいて、新しいクラスと過去のクラスの間でのコントラスト学習を再バランスさせ、事前学習した表現を統合化するための焦点コントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-24T08:51:02Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。