Fugu-MT 論文翻訳(概要): The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model

論文の概要: The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model

arxiv url: http://arxiv.org/abs/2501.16226v1
Date: Mon, 27 Jan 2025 17:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:04.013668
Title: The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model
Title（参考訳）: うるさいガウス混合モデルにおける最適自己蒸留の効果
Authors: Kaito Takanami, Takashi Takahashi, Ayaka Sakata,
Abstract要約: 自己蒸留(英: self-distillation, SD)とは、モデルが自身の予測から自分自身を洗練させる技法である。広く使われているにもかかわらず、その効果の基盤となるメカニズムはいまだ不明である。
参考スコア（独自算出の注目度）: 2.355460994057843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-distillation (SD), a technique where a model refines itself from its own predictions, has garnered attention as a simple yet powerful approach in machine learning. Despite its widespread use, the mechanisms underlying its effectiveness remain unclear. In this study, we investigate the efficacy of hyperparameter-tuned multi-stage SD in binary classification tasks with noisy labeled Gaussian mixture data, utilizing a replica theory. Our findings reveals that the primary driver of SD's performance improvement is denoising through hard pseudo-labels, with the most notable gains observed in moderately sized datasets. We also demonstrate the efficacy of practical heuristics, such as early stopping for extracting meaningful signal and bias fixation for imbalanced data. These results provide both theoretical guarantees and practical insights, advancing our understanding and application of SD in noisy settings.
Abstract（参考訳）: モデルが自身の予測から自分自身を洗練させる技術である自己蒸留(SD)は、機械学習において単純だが強力なアプローチとして注目を集めている。広く使われているにもかかわらず、その効果の基盤となるメカニズムはいまだ不明である。本研究では,ガウス混合データを用いた二項分類タスクにおけるハイパーパラメータ調整型多段SDの有効性について,レプリカ理論を用いて検討した。以上の結果から,SDの性能向上の第一の要因は,中程度のデータセットで最も顕著な利得が見られた,硬い擬似ラベルによるデノベーションであることが明らかとなった。また,有意な信号を抽出するための早期停止や,不均衡なデータに対するバイアス固定などの実用的ヒューリスティックスの有効性を示す。これらの結果は理論的保証と実践的洞察の両方を提供し、ノイズの多い環境でのSDの理解と応用を前進させる。

関連論文リスト

Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。 RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文参考訳（メタデータ） (2025-05-19T17:21:03Z)
Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。 DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文参考訳（メタデータ） (2025-03-10T17:44:46Z)
Distributionally Robust Graph Out-of-Distribution Recommendation via Diffusion Model [7.92181856602497]
OODレコメンデーション(DRGO)のための分散ロバストグラフモデルを設計する。具体的には,遅延空間における雑音効果を軽減するために,単純かつ効果的な拡散パラダイムを用いる。 DRGOの一般化誤差境界の理論的証明と,本手法がノイズサンプル効果を緩和する理論的解析を提供する。
論文参考訳（メタデータ） (2025-01-26T15:07:52Z)
Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文参考訳（メタデータ） (2025-01-08T00:43:31Z)
Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文参考訳（メタデータ） (2024-08-16T19:08:27Z)
Iso-Diffusion: Improving Diffusion Probabilistic Models Using the Isotropy of the Additive Gaussian Noise [0.0]
本稿では、DDPMの忠実度を高めるために、目的関数の制約として添加音の等方性を利用する方法を示す。我々のアプローチは単純であり、DDPMの変種にも適用できる。
論文参考訳（メタデータ） (2024-03-25T14:05:52Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-24T20:28:59Z)
AST: Effective Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文参考訳（メタデータ） (2023-10-16T16:13:53Z)
Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文参考訳（メタデータ） (2023-10-12T16:04:41Z)
Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2023-03-16T16:43:24Z)
Directed Acyclic Graph Factorization Machines for CTR Prediction via Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。 KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文参考訳（メタデータ） (2022-11-21T03:09:42Z)
Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。 RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文参考訳（メタデータ） (2022-05-28T07:47:53Z)
Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。実験結果から,これらの手法が直面する課題を分析した。本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文参考訳（メタデータ） (2022-03-23T07:33:37Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。