論文の概要: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2212.12965v1
- Date: Sun, 25 Dec 2022 22:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:43:24.826683
- Title: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- Title(参考訳): BD-KD:オンライン知識蒸留における多様性のバランス
- Authors: Ibtihel Amara, Nazanin Sepahvand, Brett H. Meyer, Warren J. Gross and
James J. Clark
- Abstract要約: 我々はBD-KD: オンライン知識蒸留のための多様性のバランスをとることを提案する。
逆発散と前方発散の適応的バランスは、訓練戦略の焦点をコンパクトな学生ネットワークにシフトさせることを示す。
本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
- 参考スコア(独自算出の注目度): 12.27903419909491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has gained a lot of attention in the field of
model compression for edge devices thanks to its effectiveness in compressing
large powerful networks into smaller lower-capacity models. Online
distillation, in which both the teacher and the student are learning
collaboratively, has also gained much interest due to its ability to improve on
the performance of the networks involved. The Kullback-Leibler (KL) divergence
ensures the proper knowledge transfer between the teacher and student. However,
most online KD techniques present some bottlenecks under the network capacity
gap. By cooperatively and simultaneously training, the models the KL distance
becomes incapable of properly minimizing the teacher's and student's
distributions. Alongside accuracy, critical edge device applications are in
need of well-calibrated compact networks. Confidence calibration provides a
sensible way of getting trustworthy predictions. We propose BD-KD: Balancing of
Divergences for online Knowledge Distillation. We show that adaptively
balancing between the reverse and forward divergences shifts the focus of the
training strategy to the compact student network without limiting the teacher
network's learning process. We demonstrate that, by performing this balancing
design at the level of the student distillation loss, we improve upon both
performance accuracy and calibration of the compact student network. We
conducted extensive experiments using a variety of network architectures and
show improvements on multiple datasets including CIFAR-10, CIFAR-100,
Tiny-ImageNet, and ImageNet. We illustrate the effectiveness of our approach
through comprehensive comparisons and ablations with current state-of-the-art
online and offline KD techniques.
- Abstract(参考訳): 知識蒸留(KD)は、より小さな低容量のモデルに大容量のネットワークを圧縮する効果により、エッジデバイスに対するモデル圧縮の分野で大きな注目を集めている。
教師と生徒が共同で学習するオンライン蒸留も、ネットワークのパフォーマンスを向上させる能力により、大きな関心を集めている。
Kullback-Leibler (KL) は、教師と生徒の適切な知識伝達を保証する。
しかしながら、ほとんどのオンラインKD技術は、ネットワーク容量ギャップの下でボトルネックを生じさせる。
協調的かつ同時に訓練することにより、KL距離のモデルが教師と生徒の分布を適切に最小化できなくなる。
正確性に加えて、重要なエッジデバイスアプリケーションは、よく校正されたコンパクトネットワークを必要とする。
信頼度校正は、信頼できる予測を得るための賢明な方法を提供する。
BD-KD: オンライン知識蒸留のための分岐のバランスをとることを提案する。
本研究では,教師ネットワークの学習過程に制限を加えることなく,学習戦略の焦点をコンパクトな学生ネットワークに適応的にシフトすることを示す。
本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNet など,様々なネットワークアーキテクチャを用いた広範な実験を行った。
本稿では,最先端のオンラインおよびオフラインkd技術との比較とアブレーションを通して,本手法の有効性を示す。
関連論文リスト
- Dynamic Contrastive Knowledge Distillation for Efficient Image Restoration [17.27061613884289]
画像復元のための動的コントラスト知識蒸留(DCKD)フレームワークを提案する。
具体的には,学生の学習状態を知覚するために,動的コントラスト正規化を導入する。
また,教師モデルと学生モデルの画素レベルのカテゴリ分布を抽出・調整する分布マッピングモジュールを提案する。
論文 参考訳(メタデータ) (2024-12-12T05:01:17Z) - Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robust feature knowledge distillation for enhanced performance of lightweight crack segmentation models [2.023914201416672]
本稿では, き裂分割のための光モデルの精度を維持しつつ, 強靭性向上のための枠組みを開発する。
RFKDは教師モデルのロジット層と中間特徴写像から知識を消し去り、クリーンでノイズの多い混在した画像を利用する。
RFKDは,SOTA KD法と比較して62%,平均Diceスコア (mDS) に達した。
論文 参考訳(メタデータ) (2024-04-09T12:32:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - StableKD: Breaking Inter-block Optimization Entanglement for Stable Knowledge Distillation [11.0282391137938]
IBOEを破り、より安定した最適化を実現する新しいKDフレームワークであるStableKDを提案する。
他のKD手法と比較して、我々の単純で効果的なStableKDはモデルの精度を1%向上させ、収束を最大10倍に高速化し、トレーニングデータのわずか40%でそれらを上回ります。
論文 参考訳(メタデータ) (2023-12-20T17:46:48Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。