論文の概要: Self-Distillation as Instance-Specific Label Smoothing
- arxiv url: http://arxiv.org/abs/2006.05065v2
- Date: Thu, 22 Oct 2020 03:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:43:20.413403
- Title: Self-Distillation as Instance-Specific Label Smoothing
- Title(参考訳): インスタンス特異的ラベル平滑化としての自己蒸留
- Authors: Zhilu Zhang and Mert R. Sabuncu
- Abstract要約: まず,多世代自己蒸留の性能向上が教師の予測の多様性の増大に関連していることを実験的に実証した。
そこで本研究では,個別に訓練された教師モデルを必要としない,予測的多様性を促進する新しい事例特異的ラベル平滑化手法を提案する。
- 参考スコア(独自算出の注目度): 21.25693768518964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been recently demonstrated that multi-generational self-distillation
can improve generalization. Despite this intriguing observation, reasons for
the enhancement remain poorly understood. In this paper, we first demonstrate
experimentally that the improved performance of multi-generational
self-distillation is in part associated with the increasing diversity in
teacher predictions. With this in mind, we offer a new interpretation for
teacher-student training as amortized MAP estimation, such that teacher
predictions enable instance-specific regularization. Our framework allows us to
theoretically relate self-distillation to label smoothing, a commonly used
technique that regularizes predictive uncertainty, and suggests the importance
of predictive diversity in addition to predictive uncertainty. We present
experimental results using multiple datasets and neural network architectures
that, overall, demonstrate the utility of predictive diversity. Finally, we
propose a novel instance-specific label smoothing technique that promotes
predictive diversity without the need for a separately trained teacher model.
We provide an empirical evaluation of the proposed method, which, we find,
often outperforms classical label smoothing.
- Abstract(参考訳): 近年,多世代自己蒸留が一般化を改善できることが実証されている。
この興味深い観察にもかかわらず、強化の理由はよく分かっていない。
本稿では,多世代自己蒸留の性能向上が教師の予測の多様性の増大に関連していることを実験的に実証する。
このことを念頭に置いて,教師の学習を記憶的MAP推定として解釈し,教師の予測がインスタンス固有の正規化を可能にする。
筆者らの枠組みは, 予測不確実性を規則化し, 予測不確実性に加えて, 予測多様性の重要性を示唆する手法であるラベルスムーシングに, 自己蒸留を理論的に関連付けることを可能にする。
複数のデータセットとニューラルネットワークアーキテクチャを用いて,予測多様性の有用性を示す実験結果を示す。
最後に、個別に訓練された教師モデルを必要としない予測的多様性を促進する新しいインスタンス固有ラベル平滑化手法を提案する。
提案手法の実証評価を行い,古典的なラベルの平滑化に優れることを示す。
関連論文リスト
- Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。
本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文 参考訳(メタデータ) (2023-10-28T04:58:15Z) - Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Knowledge Distillation as Semiparametric Inference [44.572422527672416]
モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
この2段階の知識蒸留プロセスは、しばしばラベル付きデータで直接学生を訓練するよりも高い精度をもたらす。
対象とする最適学生モデルを用いた半パラメトリック推定問題として知識蒸留を行い,未知ベイズ級確率を迷惑として,教師確率をプラグイン迷惑推定として用いた。
論文 参考訳(メタデータ) (2021-04-20T03:00:45Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - Regularizing Class-wise Predictions via Self-knowledge Distillation [80.76254453115766]
類似サンプル間の予測分布を解析する新しい正規化法を提案する。
これにより、単一のネットワークの暗黒知識(すなわち誤った予測に関する知識)を規則化する。
画像分類タスクにおける実験結果から, 単純だが強力な手法が一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-03-31T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。