論文の概要: Understanding Self-Distillation and Partial Label Learning in
Multi-Class Classification with Label Noise
- arxiv url: http://arxiv.org/abs/2402.10482v1
- Date: Fri, 16 Feb 2024 07:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:19:38.728136
- Title: Understanding Self-Distillation and Partial Label Learning in
Multi-Class Classification with Label Noise
- Title(参考訳): ラベルノイズを伴う多クラス分類における自己蒸留と部分ラベル学習の理解
- Authors: Hyeonsu Jeong and Hye Won Chung
- Abstract要約: 自己蒸留(英: Self-distillation, SD)とは、教師モデルの出力を用いて学生モデルを訓練する過程である。
本研究は,クロスエントロピー損失を伴う多クラス分類におけるSDを理論的に検討する。
- 参考スコア(独自算出の注目度): 12.636657455986144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-distillation (SD) is the process of training a student model using the
outputs of a teacher model, with both models sharing the same architecture. Our
study theoretically examines SD in multi-class classification with
cross-entropy loss, exploring both multi-round SD and SD with refined teacher
outputs, inspired by partial label learning (PLL). By deriving a closed-form
solution for the student model's outputs, we discover that SD essentially
functions as label averaging among instances with high feature correlations.
Initially beneficial, this averaging helps the model focus on feature clusters
correlated with a given instance for predicting the label. However, it leads to
diminishing performance with increasing distillation rounds. Additionally, we
demonstrate SD's effectiveness in label noise scenarios and identify the label
corruption condition and minimum number of distillation rounds needed to
achieve 100% classification accuracy. Our study also reveals that one-step
distillation with refined teacher outputs surpasses the efficacy of multi-step
SD using the teacher's direct output in high noise rate regimes.
- Abstract(参考訳): 自己蒸留 (self-distillation, sd) は、教師モデルの出力を使って生徒モデルを訓練するプロセスであり、両方のモデルは同じアーキテクチャを共有している。
本研究は,多ラウンドSDとSDの両方を,部分ラベル学習(PLL)にインスパイアされた改良された教師出力で探索し,クロスエントロピー損失を伴う多クラス分類におけるSDを理論的に検討する。
学生モデルの出力に対するクローズドフォームソリューションを導出することにより、sdは本質的に高い特徴相関を持つインスタンス間のラベル平均化として機能することを発見した。
当初、この平均化は、ラベルを予測するための所定のインスタンスと相関した特徴クラスタにモデルを集中させるのに役立つ。
しかし、蒸留ラウンドの増加に伴い性能が低下する。
さらに,ラベルノイズシナリオにおけるsdの有効性を実証し,100%分類精度を達成するために必要なラベル破損条件と蒸留ラウンド数を同定した。
また,高騒音域における教師の直接出力を用いた多段階SDの有効性を,教師の出力による一段階蒸留が超えることを示した。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。
ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。
本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T05:59:41Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - From Consensus to Disagreement: Multi-Teacher Distillation for
Semi-Supervised Relation Extraction [10.513626483108126]
半教師付き関係抽出(SSRE)は、未ラベルのサンプルを追加のトレーニングデータとしてアノテートすることで、この問題に対して有望な方法であることが証明されている。
しかし、ラベルのないデータに関する豊富な情報を含む差分集合は、以前から無視されてきた。
我々は,既存のSSRE手法に容易に組み込むことができる,シンプルで汎用的な多教師蒸留フレームワークを開発した。
論文 参考訳(メタデータ) (2021-12-02T08:20:23Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。