Fugu-MT 論文翻訳(概要): Rethinking Self-Distillation: Label Averaging and Enhanced Soft Label Refinement with Partial Labels

論文の概要: Rethinking Self-Distillation: Label Averaging and Enhanced Soft Label Refinement with Partial Labels

arxiv url: http://arxiv.org/abs/2402.10482v2
Date: Wed, 19 Feb 2025 10:04:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.593632
Title: Rethinking Self-Distillation: Label Averaging and Enhanced Soft Label Refinement with Partial Labels
Title（参考訳）: 自己蒸留を再考する: ラベル平均化と部分ラベルによるソフトラベル精製の強化
Authors: Hyeonsu Jeong, Hye Won Chung,
Abstract要約: マルチラウンド自己蒸留は,高い特徴相関を持つインスタンス間のラベル平均化を効果的に行う。教師の最上位2つのソフトマックス出力の精巧な部分ラベルを用いた,新規で効率的なシングルラウンド自己蒸留法を提案する。
参考スコア（独自算出の注目度）: 10.696635172502141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the mechanisms of self-distillation in multi-class classification, particularly in the context of linear probing with fixed feature extractors where traditional feature learning explanations do not apply. Our theoretical analysis reveals that multi-round self-distillation effectively performs label averaging among instances with high feature correlations, governed by the eigenvectors of the Gram matrix derived from input features. This process leads to clustered predictions and improved generalization, mitigating the impact of label noise by reducing the model's reliance on potentially corrupted labels. We establish conditions under which multi-round self-distillation achieves 100% population accuracy despite label noise. Furthermore, we introduce a novel, efficient single-round self-distillation method using refined partial labels from the teacher's top two softmax outputs, referred to as the PLL student model. This approach replicates the benefits of multi-round distillation in a single round, achieving comparable or superior performance--especially in high-noise scenarios--while significantly reducing computational cost.
Abstract（参考訳）: 本稿では,多クラス分類における自己蒸留のメカニズム,特に従来の特徴学習の説明が適用されない固定特徴抽出器を用いた線形探索の文脈について検討する。この理論解析により, 複数ラウンドの自己蒸留は, 入力特徴から導出されるグラム行列の固有ベクトルによって制御された, 高い特徴相関を持つインスタンス間のラベル平均化を効果的に行うことが明らかとなった。このプロセスはクラスタ化された予測と一般化の改善をもたらし、モデルが潜在的に破損したラベルに依存することを減らすことでラベルノイズの影響を緩和する。ラベルノイズにも拘わらず,マルチラウンド自己蒸留が100%の個体数精度を実現する条件を確立する。さらに,PLL学生モデルと呼ばれる教師の上位2つのソフトマックス出力から精製された部分ラベルを用いた,新規で効率的なシングルラウンド自己蒸留手法を提案する。このアプローチは、単一ラウンドでの多ラウンド蒸留の利点を再現し、特に高雑音のシナリオにおいて、同等または優れた性能を達成する。

関連論文リスト

Consistency-aware Self-Training for Iterative-based Stereo Matching [13.079759982779013]
本稿では,反復型ステレオマッチングのための一貫性を考慮した自己学習フレームワークを提案する。まず, 誤差が大きい地域では, モデル予測時により顕著な発振特性を示す傾向が見られた。そこで我々は,疑似ラベルの重み付けを調整し,誤りの蓄積と性能劣化問題を軽減するために,整合性を考慮したソフトウェイトド・ロスを導入する。
論文参考訳（メタデータ） (2025-03-31T05:58:25Z)
Mitigating Instance-Dependent Label Noise: Integrating Self-Supervised Pretraining with Pseudo-Label Refinement [3.272177633069322]
実世界のデータセットは、アノテーションプロセス中にヒューマンエラー、あいまいさ、リソース制約のために、ノイズの多いラベルを含むことが多い。そこで本研究では,SimCLRを用いた自己教師型学習と反復的擬似ラベル改良を組み合わせた新しいフレームワークを提案する。提案手法は,特に高騒音条件下では,いくつかの最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-12-06T09:56:49Z)
Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文参考訳（メタデータ） (2024-07-26T09:33:53Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文参考訳（メタデータ） (2024-04-10T07:34:37Z)
Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップこれらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。 DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文参考訳（メタデータ） (2023-05-25T04:49:34Z)
SLaM: Student-Label Mixing for Distillation with Unlabeled Examples [15.825078347452024]
学生ラベル混合(SLaM)と呼ばれる未ラベル例を用いた知識蒸留の原理的手法を提案する。 SLaMは、いくつかの標準ベンチマークで評価することで、従来のアプローチよりも一貫して改善されている。ランダムな分類雑音下でハーフスペースを学習する際の最もよく知られたサンプル複雑性を改善するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-08T00:14:44Z)
Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。 2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-08T05:53:53Z)
Leveraging Instance Features for Label Aggregation in Programmatic Weak Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。 PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文参考訳（メタデータ） (2022-10-06T07:28:53Z)
Exploring Inconsistent Knowledge Distillation for Object Detection with Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文参考訳（メタデータ） (2022-09-20T16:36:28Z)
Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文参考訳（メタデータ） (2022-08-21T07:47:05Z)
Efficient and Flexible Sublabel-Accurate Energy Minimization [62.50191141358778]
データと滑らかさの項からなるエネルギー関数のクラスを最小化する問題に対処する。既存の連続最適化手法は、サブラベル精度の高い解を見つけることができるが、大きなラベル空間では効率が良くない。本稿では,連続モデルと離散モデルの両方の最適特性を利用する効率的なサブラベル精度手法を提案する。
論文参考訳（メタデータ） (2022-06-20T06:58:55Z)
Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-14T05:59:41Z)
ALM-KD: Knowledge Distillation with noisy labels via adaptive loss mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。 KD中の適応損失混合方式を用いてこの問題に対処する。提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文参考訳（メタデータ） (2022-02-07T14:53:22Z)
Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文参考訳（メタデータ） (2022-01-26T01:48:37Z)
Optimizing Diffusion Rate and Label Reliability in a Graph-Based Semi-supervised Classifier [2.4366811507669124]
Local and Global Consistency (LGC)アルゴリズムは、グラフベースの半教師付き半教師付き(GSSL)分類器の1つである。ラベル付きインスタンスの自己影響を取り除くことは、どのように有用か、そして、それがアウト・ワン・アウトエラーにどのように関係するかについて議論する。本研究では,ラベルの信頼性と拡散率を推定する手法を提案する。
論文参考訳（メタデータ） (2022-01-10T16:58:52Z)
From Consensus to Disagreement: Multi-Teacher Distillation for Semi-Supervised Relation Extraction [10.513626483108126]
半教師付き関係抽出(SSRE)は、未ラベルのサンプルを追加のトレーニングデータとしてアノテートすることで、この問題に対して有望な方法であることが証明されている。しかし、ラベルのないデータに関する豊富な情報を含む差分集合は、以前から無視されてきた。我々は,既存のSSRE手法に容易に組み込むことができる,シンプルで汎用的な多教師蒸留フレームワークを開発した。
論文参考訳（メタデータ） (2021-12-02T08:20:23Z)
Deep Semi-supervised Knowledge Distillation for Overlapping Cervical Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文参考訳（メタデータ） (2020-07-21T13:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。