論文の概要: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2212.12965v1
- Date: Sun, 25 Dec 2022 22:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:43:24.826683
- Title: BD-KD: Balancing the Divergences for Online Knowledge Distillation
- Title(参考訳): BD-KD:オンライン知識蒸留における多様性のバランス
- Authors: Ibtihel Amara, Nazanin Sepahvand, Brett H. Meyer, Warren J. Gross and
James J. Clark
- Abstract要約: 我々はBD-KD: オンライン知識蒸留のための多様性のバランスをとることを提案する。
逆発散と前方発散の適応的バランスは、訓練戦略の焦点をコンパクトな学生ネットワークにシフトさせることを示す。
本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
- 参考スコア(独自算出の注目度): 12.27903419909491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has gained a lot of attention in the field of
model compression for edge devices thanks to its effectiveness in compressing
large powerful networks into smaller lower-capacity models. Online
distillation, in which both the teacher and the student are learning
collaboratively, has also gained much interest due to its ability to improve on
the performance of the networks involved. The Kullback-Leibler (KL) divergence
ensures the proper knowledge transfer between the teacher and student. However,
most online KD techniques present some bottlenecks under the network capacity
gap. By cooperatively and simultaneously training, the models the KL distance
becomes incapable of properly minimizing the teacher's and student's
distributions. Alongside accuracy, critical edge device applications are in
need of well-calibrated compact networks. Confidence calibration provides a
sensible way of getting trustworthy predictions. We propose BD-KD: Balancing of
Divergences for online Knowledge Distillation. We show that adaptively
balancing between the reverse and forward divergences shifts the focus of the
training strategy to the compact student network without limiting the teacher
network's learning process. We demonstrate that, by performing this balancing
design at the level of the student distillation loss, we improve upon both
performance accuracy and calibration of the compact student network. We
conducted extensive experiments using a variety of network architectures and
show improvements on multiple datasets including CIFAR-10, CIFAR-100,
Tiny-ImageNet, and ImageNet. We illustrate the effectiveness of our approach
through comprehensive comparisons and ablations with current state-of-the-art
online and offline KD techniques.
- Abstract(参考訳): 知識蒸留(KD)は、より小さな低容量のモデルに大容量のネットワークを圧縮する効果により、エッジデバイスに対するモデル圧縮の分野で大きな注目を集めている。
教師と生徒が共同で学習するオンライン蒸留も、ネットワークのパフォーマンスを向上させる能力により、大きな関心を集めている。
Kullback-Leibler (KL) は、教師と生徒の適切な知識伝達を保証する。
しかしながら、ほとんどのオンラインKD技術は、ネットワーク容量ギャップの下でボトルネックを生じさせる。
協調的かつ同時に訓練することにより、KL距離のモデルが教師と生徒の分布を適切に最小化できなくなる。
正確性に加えて、重要なエッジデバイスアプリケーションは、よく校正されたコンパクトネットワークを必要とする。
信頼度校正は、信頼できる予測を得るための賢明な方法を提供する。
BD-KD: オンライン知識蒸留のための分岐のバランスをとることを提案する。
本研究では,教師ネットワークの学習過程に制限を加えることなく,学習戦略の焦点をコンパクトな学生ネットワークに適応的にシフトすることを示す。
本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNet など,様々なネットワークアーキテクチャを用いた広範な実験を行った。
本稿では,最先端のオンラインおよびオフラインkd技術との比較とアブレーションを通して,本手法の有効性を示す。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Learn from Balance: Rectifying Knowledge Transfer for Long-Tailed Scenarios [8.804625474114948]
知識蒸留(KD)は,教師ネットワークから生徒ネットワークへ知識を伝達する。
本稿では,教師ネットワークに継承された不均衡な知識に対処するため,KRDistill(Knowledge Rectification Distillation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-12T01:58:06Z) - Adaptive Teaching with Shared Classifier for Knowledge Distillation [6.03477652126575]
知識蒸留(KD)は、教師ネットワークから学生ネットワークへ知識を伝達する技術である。
共有分類器(ATSC)を用いた適応型授業を提案する。
提案手法は,CIFAR-100とImageNetのデータセットに対して,単教師と多教師の両方のシナリオで最新の結果が得られる。
論文 参考訳(メタデータ) (2024-06-12T08:51:08Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Feature-domain Adaptive Contrastive Distillation for Efficient Single
Image Super-Resolution [3.2453621806729234]
CNNベースのSISRは、多くのパラメータと高い計算コストを持ち、より良い性能を実現している。
知識蒸留(KD)は教師の有用な知識を学生に伝達する。
本稿では,軽量なSISRネットワークを効率的に訓練するための特徴領域適応型コントラスト蒸留(FACD)手法を提案する。
論文 参考訳(メタデータ) (2022-11-29T06:24:14Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。