論文の概要: FerKD: Surgical Label Adaptation for Efficient Distillation
- arxiv url: http://arxiv.org/abs/2312.17473v1
- Date: Fri, 29 Dec 2023 05:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 13:41:43.780317
- Title: FerKD: Surgical Label Adaptation for Efficient Distillation
- Title(参考訳): FerKD : 効率的な蒸留用ラベル適応
- Authors: Zhiqiang Shen
- Abstract要約: 本稿では,新しい効率的な知識蒸留フレームワークであるFerKDを紹介する。
我々のアプローチは、RandomResizedCropのような標準的なデータ拡張が入力を様々な条件に変換する傾向にあるという観察と直感から来ています。
そこで本稿では,ソフト化されたハード・グラウンドトルース・ラベルを用いて,信頼性の低い領域を文脈として分類する手法を提案する。
- 参考スコア(独自算出の注目度): 30.888578537293352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FerKD, a novel efficient knowledge distillation framework that
incorporates partial soft-hard label adaptation coupled with a
region-calibration mechanism. Our approach stems from the observation and
intuition that standard data augmentations, such as RandomResizedCrop, tend to
transform inputs into diverse conditions: easy positives, hard positives, or
hard negatives. In traditional distillation frameworks, these transformed
samples are utilized equally through their predictive probabilities derived
from pretrained teacher models. However, merely relying on prediction values
from a pretrained teacher, a common practice in prior studies, neglects the
reliability of these soft label predictions. To address this, we propose a new
scheme that calibrates the less-confident regions to be the context using
softened hard groundtruth labels. Our approach involves the processes of hard
regions mining + calibration. We demonstrate empirically that this method can
dramatically improve the convergence speed and final accuracy. Additionally, we
find that a consistent mixing strategy can stabilize the distributions of soft
supervision, taking advantage of the soft labels. As a result, we introduce a
stabilized SelfMix augmentation that weakens the variation of the mixed images
and corresponding soft labels through mixing similar regions within the same
image. FerKD is an intuitive and well-designed learning system that eliminates
several heuristics and hyperparameters in former FKD solution. More
importantly, it achieves remarkable improvement on ImageNet-1K and downstream
tasks. For instance, FerKD achieves 81.2% on ImageNet-1K with ResNet-50,
outperforming FKD and FunMatch by remarkable margins. Leveraging better
pre-trained weights and larger architectures, our finetuned ViT-G14 even
achieves 89.9%. Our code is available at
https://github.com/szq0214/FKD/tree/main/FerKD.
- Abstract(参考訳): 本稿では, 部分ソフトハードラベル適応と領域校正機構を組み合わせた新しい効率的な知識蒸留フレームワークであるFerKDを提案する。
我々のアプローチは、RandomResizedCropのような標準的なデータ拡張が、入力を簡単な正、強正、強負のさまざまな条件に変換する傾向にあるという観察と直感に由来する。
伝統的な蒸留フレームワークでは、これらの変換されたサンプルは、事前訓練された教師モデルに由来する予測確率によって等しく利用される。
しかし、事前学習した教師の予測値に頼るだけでは、従来の研究では、これらのソフトラベル予測の信頼性を無視している。
そこで本研究では,ソフト化したハードグラウンドルースラベルを用いて,信頼度の低い領域をコンテキストとする新しいスキームを提案する。
私たちのアプローチは、ハードリージョンの採掘とキャリブレーションのプロセスです。
本手法が収束速度と最終的な精度を劇的に向上できることを実証的に示す。
さらに, 一貫した混合戦略は, ソフトラベルを生かして, ソフト監督の分布を安定化できることがわかった。
その結果、同一画像内に類似領域を混合することにより、混合画像と対応するソフトラベルの変動を弱める安定化された自己混合増強法が導入された。
FerKDは直感的でよく設計された学習システムであり、以前のFKDソリューションではいくつかのヒューリスティックやハイパーパラメータを排除している。
さらに重要なのは、ImageNet-1Kと下流タスクの大幅な改善だ。
例えば、FerKDはResNet-50でImageNet-1Kで81.2%を達成し、FKDとFunMatchを著しく上回っている。
より優れたトレーニング済み重量とより大きなアーキテクチャを活用して、微調整されたViT-G14は89.9%も達成しました。
私たちのコードはhttps://github.com/szq0214/FKD/tree/main/FerKDで利用可能です。
関連論文リスト
- Improving self-training under distribution shifts via anchored confidence with theoretical guarantees [13.796664304274643]
自己学習は、予測信頼度と実際の精度の相違が増大するため、分布シフトの時にしばしば不足する。
時間的整合性に基づく分散シフト下での自己学習を改善するための原理的手法を開発した。
提案手法では,計算オーバーヘッドを伴わない分散シフトシナリオにおいて,自己学習性能を8%から16%向上させる。
論文 参考訳(メタデータ) (2024-11-01T13:48:11Z) - DC4L: Distribution Shift Recovery via Data-Driven Control for Deep Learning Models [4.374569172244273]
学習したモデルに対する制御を用いて、オンライン配信のシフトから回復することを提案する。
提案手法では, 学習セットにシフトしたデータを近づけるために, セマンティック保存変換のシーケンスを適用した。
本稿では,ImageNet-Cベンチマークからのシフトの合成に一般化し,平均精度を最大9.81%向上することを示す。
論文 参考訳(メタデータ) (2023-02-20T22:06:26Z) - RegMixup: Mixup as a Regularizer Can Surprisingly Improve Accuracy and
Out Distribution Robustness [94.69774317059122]
学習目的として使うのではなく、標準のクロスエントロピー損失に対する追加の正則化剤として利用すれば、良好なミックスアップの有効性がさらに向上できることが示される。
この単純な変更は、精度を大幅に改善するだけでなく、Mixupの予測不確実性推定の品質を大幅に改善する。
論文 参考訳(メタデータ) (2022-06-29T09:44:33Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning [46.95063831057502]
本稿では,モデルの学習状況に応じて,信頼度閾値を自己適応的に定義・調整するためのemphFreeMatchを提案する。
FreeMatchは、最新の最先端メソッドであるFlexMatchよりもtextbf5.78%、textbf13.59%、textbf1.28%のエラー率削減を実現している。
論文 参考訳(メタデータ) (2022-05-15T10:07:52Z) - Rethinking Soft Labels for Knowledge Distillation: A Bias-Variance
Tradeoff Perspective [63.87421152879726]
軟質ラベルを用いた蒸留によるバイアス分散トレードオフについて検討した。
本稿では,サンプル単位のバイアス分散トレードオフを適応的に処理するための,新しい重み付きソフトラベルを提案する。
論文 参考訳(メタデータ) (2021-02-01T05:53:04Z) - Improving Layer-wise Adaptive Rate Methods using Trust Ratio Clipping [13.589484139527466]
大規模なバッチトレーニングは、トレーニング時間を大幅に削減するが、正確性を維持するには困難である。
近年, LARS や LAMB などの最適化手法が提案されている。
LAMBCと呼ばれるLAMBの新たな変種を提案する。LAMBCは,その大きさを安定させ,極端な値を防止するために,信頼率クリッピングを利用する。
論文 参考訳(メタデータ) (2020-11-27T07:20:08Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Regularization via Structural Label Smoothing [22.74769739125912]
正規化は機械学習モデルの一般化性能を促進する効果的な方法である。
本稿では,ニューラルネットワークの過度な適合を防止するための出力分布正規化の一形態であるラベル平滑化に着目した。
このようなラベルの平滑化はトレーニングデータのベイズ誤り率に定量的なバイアスを与えることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。