論文の概要: Efficient One Pass Self-distillation with Zipf's Label Smoothing
- arxiv url: http://arxiv.org/abs/2207.12980v1
- Date: Tue, 26 Jul 2022 15:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:00:12.620054
- Title: Efficient One Pass Self-distillation with Zipf's Label Smoothing
- Title(参考訳): Zipfラベル平滑化によるワンパス自己蒸留の効率化
- Authors: Jiajun Liang, Linze Li, Zhaodong Bing, Borui Zhao, Yao Tang, Bo Lin
and Haoqiang Fan
- Abstract要約: 自己蒸留は、トレーニング中の不均一なソフトインスペクションをそれ自体から活用し、実行時コストなしでパフォーマンスを向上させる。
本稿では,ネットワークのオンザフライ予測を用いたZipfのラベル平滑化(Zipf's Label Smoothing,Zipf's LS)を提案する。
本手法は,バニラベースラインに比べて+3.61%の精度向上を実現し,従来のラベルの平滑化や自己蒸留に対する0.88%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 12.626049767353386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-distillation exploits non-uniform soft supervision from itself during
training and improves performance without any runtime cost. However, the
overhead during training is often overlooked, and yet reducing time and memory
overhead during training is increasingly important in the giant models' era.
This paper proposes an efficient self-distillation method named Zipf's Label
Smoothing (Zipf's LS), which uses the on-the-fly prediction of a network to
generate soft supervision that conforms to Zipf distribution without using any
contrastive samples or auxiliary parameters. Our idea comes from an empirical
observation that when the network is duly trained the output values of a
network's final softmax layer, after sorting by the magnitude and averaged
across samples, should follow a distribution reminiscent to Zipf's Law in the
word frequency statistics of natural languages. By enforcing this property on
the sample level and throughout the whole training period, we find that the
prediction accuracy can be greatly improved. Using ResNet50 on the INAT21
fine-grained classification dataset, our technique achieves +3.61% accuracy
gain compared to the vanilla baseline, and 0.88% more gain against the previous
label smoothing or self-distillation strategies. The implementation is publicly
available at https://github.com/megvii-research/zipfls.
- Abstract(参考訳): 自己蒸留はトレーニング中に自己から不均一なソフト監督を活用し、ランタイムコストなしで性能を向上させる。
しかし、トレーニング中のオーバーヘッドはしばしば見過ごされ、トレーニング中の時間とメモリオーバーヘッドの削減は、巨大モデルの時代においてますます重要になっている。
本論文では,zipfのラベル平滑化法(zipf's label smoothing, zipf's ls)という効率的な自己蒸留法を提案する。
我々の考えは、ネットワークがネットワークの最終ソフトマックス層の出力値を正確に訓練されたとき、大きさによってソートしてサンプル平均化した後、自然言語の単語頻度統計学におけるZipfの法則に類似した分布に従わなければならないという経験的観察から生まれた。
この特性をサンプルレベルとトレーニング期間全体に適用することにより,予測精度を大幅に向上できることがわかった。
INAT21の細粒度分類データセット上でResNet50を用いることで、バニラベースラインに比べて3.61%精度が向上し、以前のラベルの平滑化や自己蒸留戦略よりも0.88%向上した。
実装はhttps://github.com/megvii-research/zipflsで公開されている。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - A new weakly supervised approach for ALS point cloud semantic
segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。
不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。
本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文 参考訳(メタデータ) (2021-10-04T14:00:23Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Stochastic Batch Augmentation with An Effective Distilled Dynamic Soft
Label Regularizer [11.153892464618545]
本稿では,これらの問題に対処するBatch Augmentation Safety of Generalization(SBA)というフレームワークを提案する。
SBAは、バッチスケジューラによって制御されるイテレーションを拡大するか、動的ソフトレギュレータを導入するかを決定する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, SBAはニューラルネットワークの一般化を改善し, ネットワークトレーニングの収束を高速化できることが示された。
論文 参考訳(メタデータ) (2020-06-27T04:46:39Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Regularization via Structural Label Smoothing [22.74769739125912]
正規化は機械学習モデルの一般化性能を促進する効果的な方法である。
本稿では,ニューラルネットワークの過度な適合を防止するための出力分布正規化の一形態であるラベル平滑化に着目した。
このようなラベルの平滑化はトレーニングデータのベイズ誤り率に定量的なバイアスを与えることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。