論文の概要: Some Robustness Properties of Label Cleaning
- arxiv url: http://arxiv.org/abs/2509.11379v1
- Date: Sun, 14 Sep 2025 18:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.058982
- Title: Some Robustness Properties of Label Cleaning
- Title(参考訳): ラベル洗浄のロバスト性
- Authors: Chen Cheng, John Duchi,
- Abstract要約: 集約ラベルに依存した学習手順は, データのクリーニングを伴わずに, 堅牢性を享受できることが示唆された。
データ分析パイプラインの完全なビューを組み込むことで、ノイズの多い信号を精査することで、より堅牢な方法論を実現する方法について強調する。
- 参考スコア(独自算出の注目度): 6.215814187185031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that learning procedures that rely on aggregated labels, e.g., label information distilled from noisy responses, enjoy robustness properties impossible without data cleaning. This robustness appears in several ways. In the context of risk consistency -- when one takes the standard approach in machine learning of minimizing a surrogate (typically convex) loss in place of a desired task loss (such as the zero-one mis-classification error) -- procedures using label aggregation obtain stronger consistency guarantees than those even possible using raw labels. And while classical statistical scenarios of fitting perfectly-specified models suggest that incorporating all possible information -- modeling uncertainty in labels -- is statistically efficient, consistency fails for ``standard'' approaches as soon as a loss to be minimized is even slightly mis-specified. Yet procedures leveraging aggregated information still converge to optimal classifiers, highlighting how incorporating a fuller view of the data analysis pipeline, from collection to model-fitting to prediction time, can yield a more robust methodology by refining noisy signals.
- Abstract(参考訳): ノイズ応答から抽出したラベル情報を集約ラベルに依存する学習手順は, データのクリーニングを伴わずに, 堅牢性を享受できることを実証した。
この頑丈さはいくつかの点で現れる。
リスク一貫性の文脈では、望ましいタスク損失(ゼロワンの誤分類エラーなど)の代わりにサロゲート(典型的には凸)損失を最小化する機械学習の標準的なアプローチをとると、ラベルアグリゲーションを使った手順は、生のラベルを使用する場合よりも強い一貫性を保証する。
そして、完全に特定されたモデルに適合する古典的な統計的シナリオは、ラベルにモデリングの不確実性を含むすべての可能な情報を組み込むことが統計的に効率的であることを示している。
しかし、集約された情報を活用する手順は、依然として最適な分類器に収束し、収集からモデル適合から予測時間まで、データ分析パイプラインのより完全なビューを組み込むことによって、ノイズ信号の精製によってより堅牢な方法論が得られることを強調している。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - LaplaceConfidence: a Graph-based Approach for Learning with Noisy Labels [17.66525177980075]
ラプラスエネルギーを利用したラベル信頼(クリーン確率)を得る方法であるラプラス信頼(LaplaceConfidence)を紹介する。
LaplaceConfidenceはロバストトレーニングのための総合的な方法に組み込まれており、コトレーニング技術はラベルの信頼性を損なう。
我々の実験は、LaplaceConfidenceが、合成ノイズと実世界のノイズの両方の下で、ベンチマークデータセットの最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-07-31T12:44:30Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Robustness and reliability when training with noisy labels [12.688634089849023]
教師付き学習のためのデータの遅延は、コストと時間を要する可能性がある。
ディープニューラルネットワークは、ランダムラベルの適合、正規化、ロバストな損失関数の使用を証明している。
論文 参考訳(メタデータ) (2021-10-07T10:30:20Z) - Learning from Noisy Labels for Entity-Centric Information Extraction [17.50856935207308]
エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。
これらのモデルはタスク固有の損失と共同最適化され、同様の予測を生成するために正規化される。
結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。
論文 参考訳(メタデータ) (2021-04-17T22:49:12Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。