論文の概要: Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information
- arxiv url: http://arxiv.org/abs/2508.07713v1
- Date: Mon, 11 Aug 2025 07:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.992989
- Title: Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information
- Title(参考訳): ポイントワイド相互情報による誤ラベル・故障データの検出
- Authors: Jinghan Yang, Jiayu Weng,
- Abstract要約: 本稿では,ハイブリッドノイズシナリオ下でのデータ選択のための相互情報に基づくフレームワークを提案する。
各サンプルの総合的な相互情報に対するポイントワイドな寄与を計算し、低い寄与はノイズやラベルの誤りを示す。
ラベルの破損下では、高MIサンプルのトレーニングにより、ランダムサンプリングと比較して、最大15%の分類精度が向上する。
- 参考スコア(独自算出の注目度): 0.9821874476902969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks can memorize corrupted labels, making data quality critical for model performance, yet real-world datasets are frequently compromised by both label noise and input noise. This paper proposes a mutual information-based framework for data selection under hybrid noise scenarios that quantifies statistical dependencies between inputs and labels. We compute each sample's pointwise contribution to the overall mutual information and find that lower contributions indicate noisy or mislabeled instances. Empirical validation on MNIST with different synthetic noise settings demonstrates that the method effectively filters low-quality samples. Under label corruption, training on high-MI samples improves classification accuracy by up to 15\% compared to random sampling. Furthermore, the method exhibits robustness to benign input modifications, preserving semantically valid data while filtering truly corrupted samples.
- Abstract(参考訳): ディープニューラルネットワークは、破損したラベルを記憶し、モデルパフォーマンスにデータ品質をクリティカルにするが、実世界のデータセットはラベルノイズと入力ノイズの両方によって頻繁に侵害される。
本稿では、入力とラベル間の統計的依存関係を定量化するハイブリッドノイズシナリオ下でのデータ選択のための相互情報に基づくフレームワークを提案する。
各サンプルの総合的な相互情報に対するポイントワイドな寄与を計算し、低い寄与はノイズやラベルの誤りを示す。
合成ノイズ設定の違いによるMNISTの実証検証により,低品質サンプルを効果的にフィルタリングできることが証明された。
ラベルの破損下では、高MIサンプルのトレーニングにより、ランダムサンプリングと比較して最大15倍の分類精度が向上する。
さらに、本手法は、真に破損したサンプルをフィルタリングしながら、意味論的に有効なデータを保存し、入力修正の良性を示す。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Differences Between Hard and Noisy-labeled Samples: An Empirical Study [7.132368785057315]
ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-20T09:24:23Z) - PASS: Peer-Agreement based Sample Selection for training with Noisy Labels [16.283722126438125]
ノイズラベルサンプルの頻度は、深層学習において重要な課題となり、過剰適合効果を誘発する。
現在の方法論は、しばしばノイズとクリーンなラベルのサンプルを分離するために、小さな損失仮説や特徴に基づく選択に依存している。
本稿では,PASS (Peer-Agreement based Sample Selection) と呼ばれる新しいノイズラベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T00:35:33Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。