論文の概要: Mislabeled examples detection viewed as probing machine learning models: concepts, survey and extensive benchmark
- arxiv url: http://arxiv.org/abs/2410.15772v1
- Date: Mon, 21 Oct 2024 08:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:25.457957
- Title: Mislabeled examples detection viewed as probing machine learning models: concepts, survey and extensive benchmark
- Title(参考訳): 機械学習モデルとして見なされるミスラベル付きサンプル検出:概念、調査、広範囲なベンチマーク
- Authors: Thomas George, Pierre Nodet, Alexis Bondu, Vincent Lemaire,
- Abstract要約: 誤ラベル検出手法のほとんどを、訓練された機械学習モデルの探索とみなすことができる。
これらのメソッドを含むモジュラーフレームワークを4つのビルディングブロックでパラメータ化します。
我々は,既存の手法を (人工) Completely At Random (NCAR) と (現実) Not At Random (NNAR) のラベル付きノイズでベンチマークする。
- 参考スコア(独自算出の注目度): 1.161984280536199
- License:
- Abstract: Mislabeled examples are ubiquitous in real-world machine learning datasets, advocating the development of techniques for automatic detection. We show that most mislabeled detection methods can be viewed as probing trained machine learning models using a few core principles. We formalize a modular framework that encompasses these methods, parameterized by only 4 building blocks, as well as a Python library that demonstrates that these principles can actually be implemented. The focus is on classifier-agnostic concepts, with an emphasis on adapting methods developed for deep learning models to non-deep classifiers for tabular data. We benchmark existing methods on (artificial) Completely At Random (NCAR) as well as (realistic) Not At Random (NNAR) labeling noise from a variety of tasks with imperfect labeling rules. This benchmark provides new insights as well as limitations of existing methods in this setup.
- Abstract(参考訳): ミスラベル付きサンプルは、実世界の機械学習データセットでユビキタスに存在しており、自動検出のための技術開発を提唱している。
誤ラベル検出手法のほとんどは、いくつかの基本原理を用いて訓練された機械学習モデルを探索しているとみなすことができる。
我々は、これらのメソッドを含むモジュラーフレームワークを4つのビルディングブロックでパラメータ化し、これらの原則が実際に実装可能であることを示すPythonライブラリを形式化した。
その焦点は分類器に依存しない概念であり、深層学習モデルのために開発された手法を表データの非深部分類器に適応させることに重点を置いている。
既存の手法を,(人工)完全無作為(NCAR)と(現実)非無作為(NNAR)で評価し,不完全なラベリングルールを持つ様々なタスクからノイズをラベル付けする手法を検証した。
このベンチマークは、この設定における既存のメソッドの制限と同様に、新しい洞察を提供する。
関連論文リスト
- Comprehensive Assessment of the Performance of Deep Learning Classifiers
Reveals a Surprising Lack of Robustness [2.1320960069210484]
本稿では,多種多様なデータを用いたベンチマーキング性能について論じる。
現在のディープニューラルネットワークは、最先端のロバスト性を生み出すと信じられている手法で訓練された者を含む、ある種のデータに間違いを犯すことに対して極めて脆弱であることが判明した。
論文 参考訳(メタデータ) (2023-08-08T08:50:27Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z) - Growing Representation Learning [2.7231362265267127]
我々は、ラベルの有無に関わらずデータの解釈可能な表現を学習する、GMATと呼ばれる注意に基づくガウス混合を開発する。
本研究では,ラベルの分布について,ラベルや仮定を使わずに新しいデータ表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-10-17T15:55:13Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Open Set Recognition with Conditional Probabilistic Generative Models [51.40872765917125]
オープンセット認識のための条件付き確率生成モデル(CPGM)を提案する。
CPGMは未知のサンプルを検出できるが、異なる潜在特徴を条件付きガウス分布に近似させることで、既知のクラスを分類できる。
複数のベンチマークデータセットの実験結果から,提案手法がベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-08-12T06:23:49Z) - Early-Learning Regularization Prevents Memorization of Noisy Labels [29.04549895470588]
本稿では,ノイズの多いアノテーションの存在下で,ディープラーニングによる分類を行うための新しいフレームワークを提案する。
深層ニューラルネットワークは、"早期学習"フェーズにおいて、トレーニングデータをクリーンなラベルに適合させることが観察されている。
我々は、これらの目標に向けてモデルを操る正規化用語を設計し、偽ラベルの記憶を暗黙的に防止する。
論文 参考訳(メタデータ) (2020-06-30T23:46:33Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z) - Deep k-NN for Noisy Labels [55.97221021252733]
予備モデルのロジット層上での単純な$k$-nearest近傍フィルタリング手法により、ラベルの誤りを除去し、最近提案された多くの手法よりも正確なモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2020-04-26T05:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。