論文の概要: Dataset Distillers Are Good Label Denoisers In the Wild
- arxiv url: http://arxiv.org/abs/2411.11924v1
- Date: Mon, 18 Nov 2024 06:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:42.736037
- Title: Dataset Distillers Are Good Label Denoisers In the Wild
- Title(参考訳): 自然界の良質なラベル消毒剤「Dataset Distiller」
- Authors: Lechao Cheng, Kaifeng Chen, Jiyang Li, Shengeng Tang, Shufei Zhang, Meng Wang,
- Abstract要約: ノイズ除去にデータセット蒸留を利用する新しい手法を提案する。
本手法は,既存の手法に共通するフィードバックループを回避し,トレーニング効率を向上させるとともに,オフライン処理による強力なプライバシ保護を提供する。
本研究では, 対称雑音, 非対称雑音, 実世界の自然騒音など, 様々な騒音条件下での3つの代表的データセット蒸留法(DATM, DANCE, RCIG)を厳格に評価した。
実験結果から,データセットの蒸留はランダムノイズのシナリオにおいて効果的にデノナイジングツールとして機能するが,非対称な非対称ノイズパターンに悩まされ,蒸留試料に吸収される可能性が示唆された。
- 参考スコア(独自算出の注目度): 16.626153947696743
- License:
- Abstract: Learning from noisy data has become essential for adapting deep learning models to real-world applications. Traditional methods often involve first evaluating the noise and then applying strategies such as discarding noisy samples, re-weighting, or re-labeling. However, these methods can fall into a vicious cycle when the initial noise evaluation is inaccurate, leading to suboptimal performance. To address this, we propose a novel approach that leverages dataset distillation for noise removal. This method avoids the feedback loop common in existing techniques and enhances training efficiency, while also providing strong privacy protection through offline processing. We rigorously evaluate three representative dataset distillation methods (DATM, DANCE, and RCIG) under various noise conditions, including symmetric noise, asymmetric noise, and real-world natural noise. Our empirical findings reveal that dataset distillation effectively serves as a denoising tool in random noise scenarios but may struggle with structured asymmetric noise patterns, which can be absorbed into the distilled samples. Additionally, clean but challenging samples, such as those from tail classes in imbalanced datasets, may undergo lossy compression during distillation. Despite these challenges, our results highlight that dataset distillation holds significant promise for robust model training, especially in high-privacy environments where noise is prevalent.
- Abstract(参考訳): ノイズの多いデータから学ぶことは、ディープラーニングモデルを現実世界のアプリケーションに適用するために不可欠になっている。
従来の手法では、まずノイズを評価し、次にノイズのあるサンプルを捨てたり、再重み付けをしたり、再ラベルしたりといった戦略を適用する。
しかし、これらの手法は、初期雑音評価が不正確な場合に悪循環に陥り、準最適性能をもたらす。
そこで本研究では, ノイズ除去のためのデータセット蒸留を利用した新しい手法を提案する。
本手法は,既存の手法に共通するフィードバックループを回避し,トレーニング効率を向上させるとともに,オフライン処理による強力なプライバシ保護を提供する。
本研究では, 対称雑音, 非対称雑音, 実世界の自然騒音など, 様々な騒音条件下での3つの代表的データセット蒸留法(DATM, DANCE, RCIG)を厳格に評価した。
実験結果から, データセットの蒸留はランダムノイズのシナリオにおいて効果的にデノナイジングツールとして機能するが, 非対称な非対称ノイズパターンに苦慮し, 蒸留試料に吸収される可能性が示唆された。
さらに、不均衡なデータセットの尾クラスのサンプルのようなクリーンだが挑戦的なサンプルは、蒸留中に損失のある圧縮を行う可能性がある。
これらの課題にも拘わらず,本研究の結果は,特に騒音の多い高民営環境では,データセットの蒸留が堅牢なモデルトレーニングに有意な可能性を秘めていることを示している。
関連論文リスト
- Denoising-Aware Contrastive Learning for Noisy Time Series [35.97130925600067]
時系列自己教師型学習(SSL)は、ラベルへの依存を軽減するために事前トレーニングのためにラベル付きデータを活用することを目的としている。
本稿では,表現中の雑音を軽減し,各サンプルに対して適切な復調法を自動選択するDenoising-Aware contrastive Learning (DECL)を提案する。
論文 参考訳(メタデータ) (2024-06-07T04:27:32Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Explainable Artificial Intelligence driven mask design for
self-supervised seismic denoising [0.0]
自己教師付きコヒーレントノイズ抑圧法は、ノイズ統計の広範な知識を必要とする。
本稿では,視覚ネットワークであるブラックボックスの内部を見るために,説明可能な人工知能アプローチを提案する。
ランダムに選択された多数の入力画素に対するジャコビアン寄与の簡易な平均化が、最も効果的なマスクの指標であることを示す。
論文 参考訳(メタデータ) (2023-07-13T11:02:55Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - The potential of self-supervised networks for random noise suppression
in seismic data [0.0]
ブラインド・スポット・ネットワークは地震データにおけるランダムノイズの効率的な抑制効果を示す。
結果は、FXデコンボリューションとCurvelet変換という2つの一般的なランダムな復調手法と比較される。
これは、地震の応用における自己教師あり学習の活用の始まりにすぎないと我々は信じている。
論文 参考訳(メタデータ) (2021-09-15T14:57:43Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。