論文の概要: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2212.12965v2
- Date: Sat, 14 Dec 2024 18:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:47.520241
- Title: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- Title(参考訳): BD-KD:オンライン知識蒸留における多様性のバランス
- Authors: Ibtihel Amara, Nazanin Sepahvand, Brett H. Meyer, Warren J. Gross, James J. Clark,
- Abstract要約: 我々は、ロジットベースのオンラインKDのためのフレームワークであるBD-KD(Balanced Divergence Knowledge Distillation)を紹介する。
BD-KDは精度とモデルのキャリブレーションを同時に強化し、ポストホックリカレーション技術の必要性を排除している。
本手法は,従来のオンライン蒸留の損失を学生と教員の両方の損失に適応させることで,学生中心のトレーニングを促進する。
- 参考スコア(独自算出の注目度): 11.874952582465601
- License:
- Abstract: We address the challenge of producing trustworthy and accurate compact models for edge devices. While Knowledge Distillation (KD) has improved model compression in terms of achieving high accuracy performance, calibration of these compact models has been overlooked. We introduce BD-KD (Balanced Divergence Knowledge Distillation), a framework for logit-based online KD. BD-KD enhances both accuracy and model calibration simultaneously, eliminating the need for post-hoc recalibration techniques, which add computational overhead to the overall training pipeline and degrade performance. Our method encourages student-centered training by adjusting the conventional online distillation loss on both the student and teacher losses, employing sample-wise weighting of forward and reverse Kullback-Leibler divergence. This strategy balances student network confidence and boosts performance. Experiments across CIFAR10, CIFAR100, TinyImageNet, and ImageNet datasets, and various architectures demonstrate improved calibration and accuracy compared to recent online KD methods.
- Abstract(参考訳): エッジデバイスのための信頼性と正確なコンパクトモデルを作成するという課題に対処する。
知識蒸留(KD)は、高精度な性能を実現するためにモデル圧縮を改善しているが、これらのコンパクトモデルの校正は見過ごされている。
我々は、ロジットベースのオンラインKDのためのフレームワークであるBD-KD(Balanced Divergence Knowledge Distillation)を紹介する。
BD-KDは精度とモデルのキャリブレーションを同時に強化し、全体的なトレーニングパイプラインに計算オーバーヘッドを追加し、性能を低下させる、ポストホックリカバリ技術の必要性を排除している。
本手法は,学生と教員の双方の損失に対して従来のオンライン蒸留損失を調整し,前向きと逆向きのKullback-Leibler分散のサンプルワイド・重み付けを活用することにより,学生中心のトレーニングを促進する。
この戦略は学生ネットワークの信頼性をバランスさせ、性能を高める。
CIFAR10、CIFAR100、TinyImageNet、ImageNetデータセット、および様々なアーキテクチャにわたる実験では、最近のオンラインKD手法と比較してキャリブレーションと精度が改善された。
関連論文リスト
- Dynamic Contrastive Knowledge Distillation for Efficient Image Restoration [17.27061613884289]
画像復元のための動的コントラスト知識蒸留(DCKD)フレームワークを提案する。
具体的には,学生の学習状態を知覚するために,動的コントラスト正規化を導入する。
また,教師モデルと学生モデルの画素レベルのカテゴリ分布を抽出・調整する分布マッピングモジュールを提案する。
論文 参考訳(メタデータ) (2024-12-12T05:01:17Z) - Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robust feature knowledge distillation for enhanced performance of lightweight crack segmentation models [2.023914201416672]
本稿では, き裂分割のための光モデルの精度を維持しつつ, 強靭性向上のための枠組みを開発する。
RFKDは教師モデルのロジット層と中間特徴写像から知識を消し去り、クリーンでノイズの多い混在した画像を利用する。
RFKDは,SOTA KD法と比較して62%,平均Diceスコア (mDS) に達した。
論文 参考訳(メタデータ) (2024-04-09T12:32:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - StableKD: Breaking Inter-block Optimization Entanglement for Stable Knowledge Distillation [11.0282391137938]
IBOEを破り、より安定した最適化を実現する新しいKDフレームワークであるStableKDを提案する。
他のKD手法と比較して、我々の単純で効果的なStableKDはモデルの精度を1%向上させ、収束を最大10倍に高速化し、トレーニングデータのわずか40%でそれらを上回ります。
論文 参考訳(メタデータ) (2023-12-20T17:46:48Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。