論文の概要: The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model
- arxiv url: http://arxiv.org/abs/2501.16226v1
- Date: Mon, 27 Jan 2025 17:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:11.581601
- Title: The Effect of Optimal Self-Distillation in Noisy Gaussian Mixture Model
- Title(参考訳): うるさいガウス混合モデルにおける最適自己蒸留の効果
- Authors: Kaito Takanami, Takashi Takahashi, Ayaka Sakata,
- Abstract要約: 自己蒸留(英: self-distillation, SD)とは、モデルが自身の予測から自分自身を洗練させる技法である。
広く使われているにもかかわらず、その効果の基盤となるメカニズムはいまだ不明である。
- 参考スコア(独自算出の注目度): 2.355460994057843
- License:
- Abstract: Self-distillation (SD), a technique where a model refines itself from its own predictions, has garnered attention as a simple yet powerful approach in machine learning. Despite its widespread use, the mechanisms underlying its effectiveness remain unclear. In this study, we investigate the efficacy of hyperparameter-tuned multi-stage SD in binary classification tasks with noisy labeled Gaussian mixture data, utilizing a replica theory. Our findings reveals that the primary driver of SD's performance improvement is denoising through hard pseudo-labels, with the most notable gains observed in moderately sized datasets. We also demonstrate the efficacy of practical heuristics, such as early stopping for extracting meaningful signal and bias fixation for imbalanced data. These results provide both theoretical guarantees and practical insights, advancing our understanding and application of SD in noisy settings.
- Abstract(参考訳): モデルが自身の予測から自分自身を洗練させる技術である自己蒸留(SD)は、機械学習において単純だが強力なアプローチとして注目を集めている。
広く使われているにもかかわらず、その効果の基盤となるメカニズムはいまだ不明である。
本研究では,ガウス混合データを用いた二項分類タスクにおけるハイパーパラメータ調整型多段SDの有効性について,レプリカ理論を用いて検討した。
以上の結果から,SDの性能向上の第一の要因は,中程度のデータセットで最も顕著な利得が見られた,硬い擬似ラベルによるデノベーションであることが明らかとなった。
また,有意な信号を抽出するための早期停止や,不均衡なデータに対するバイアス固定などの実用的ヒューリスティックスの有効性を示す。
これらの結果は理論的保証と実践的洞察の両方を提供し、ノイズの多い環境でのSDの理解と応用を前進させる。
関連論文リスト
- Distributionally Robust Graph Out-of-Distribution Recommendation via Diffusion Model [7.92181856602497]
OODレコメンデーション(DRGO)のための分散ロバストグラフモデルを設計する。
具体的には,遅延空間における雑音効果を軽減するために,単純かつ効果的な拡散パラダイムを用いる。
DRGOの一般化誤差境界の理論的証明と,本手法がノイズサンプル効果を緩和する理論的解析を提供する。
論文 参考訳(メタデータ) (2025-01-26T15:07:52Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Iso-Diffusion: Improving Diffusion Probabilistic Models Using the Isotropy of the Additive Gaussian Noise [0.0]
本稿では、DDPMの忠実度を高めるために、目的関数の制約として添加音の等方性を利用する方法を示す。
我々のアプローチは単純であり、DDPMの変種にも適用できる。
論文 参考訳(メタデータ) (2024-03-25T14:05:52Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup
Anomalous Sound Detection [5.1308092683559225]
非教師付き異常音検出(ASD)は、正常な操作音の特徴を学習し、その偏差を感知することで、異常音を識別することを目的としている。
近年, 正規データの分類を利用した自己教師型タスクに焦点が当てられ, 高度なモデルでは, 異常データの表現空間の確保が重要であることが示されている。
本研究では,クラス内コンパクト性を確保し,正常試料と異常試料との角度ギャップを増大させる訓練手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:04:36Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。