論文の概要: Noisy Ostracods: A Fine-Grained, Imbalanced Real-World Dataset for Benchmarking Robust Machine Learning and Label Correction Methods
- arxiv url: http://arxiv.org/abs/2412.02313v1
- Date: Tue, 03 Dec 2024 09:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:23.877220
- Title: Noisy Ostracods: A Fine-Grained, Imbalanced Real-World Dataset for Benchmarking Robust Machine Learning and Label Correction Methods
- Title(参考訳): Noisy Ostracods:ロバスト機械学習とラベル補正のベンチマークのための微粒で非バランスな実世界データセット
- Authors: Jiamian Hu, Yuanyuan Hong, Yihua Chen, He Wang, Moriaki Yasuhara,
- Abstract要約: ノイズ・オストラコズ・データセット(Noisy Ostracods dataset)は、甲殻類オストラコズの属と種分類のためのノイズの多いデータセットである。
ノイズはオープンセットで、オリジナルのアノテーションの一部ではないキュレーション中に発見された新しいクラスを含む。
Noisy Ostracodsデータセットは、不均衡係数$rho$ = 22429と非常に不均衡である。
- 参考スコア(独自算出の注目度): 7.00297060532893
- License:
- Abstract: We present the Noisy Ostracods, a noisy dataset for genus and species classification of crustacean ostracods with specialists' annotations. Over the 71466 specimens collected, 5.58% of them are estimated to be noisy (possibly problematic) at genus level. The dataset is created to addressing a real-world challenge: creating a clean fine-grained taxonomy dataset. The Noisy Ostracods dataset has diverse noises from multiple sources. Firstly, the noise is open-set, including new classes discovered during curation that were not part of the original annotation. The dataset has pseudo-classes, where annotators misclassified samples that should belong to an existing class into a new pseudo-class. The Noisy Ostracods dataset is highly imbalanced with a imbalance factor $\rho$ = 22429. This presents a unique challenge for robust machine learning methods, as existing approaches have not been extensively evaluated on fine-grained classification tasks with such diverse real-world noise. Initial experiments using current robust learning techniques have not yielded significant performance improvements on the Noisy Ostracods dataset compared to cross-entropy training on the raw, noisy data. On the other hand, noise detection methods have underperformed in error hit rate compared to naive cross-validation ensembling for identifying problematic labels. These findings suggest that the fine-grained, imbalanced nature, and complex noise characteristics of the dataset present considerable challenges for existing noise-robust algorithms. By openly releasing the Noisy Ostracods dataset, our goal is to encourage further research into the development of noise-resilient machine learning methods capable of effectively handling diverse, real-world noise in fine-grained classification tasks. The dataset, along with its evaluation protocols, can be accessed at https://github.com/H-Jamieu/Noisy_ostracods.
- Abstract(参考訳): 我々は,甲殻類オストラコッドの分類と分類のためのノイズデータセットであるNoisy Ostracodsを専門家の注釈とともに提示する。
71466の標本のうち5.58%がノイズ(おそらく問題)であると推定されている。
データセットは、クリーンできめ細かい分類データセットを作成するという、現実世界の課題に対処するために作成されます。
Noisy Ostracodsデータセットには、複数のソースからのさまざまなノイズがある。
まず、ノイズはオープンセットされ、キュレーション中に元のアノテーションには含まれない新しいクラスが発見された。
データセットには擬似クラスがあり、アノテーションは既存のクラスに属するべきサンプルを新しい擬似クラスに誤分類する。
Noisy Ostracodsデータセットは、不均衡係数$\rho$ = 22429と非常に不均衡である。
このような多様な実世界のノイズを伴うきめ細かな分類タスクにおいて、既存のアプローチは広く評価されていないため、堅牢な機械学習手法に対するユニークな課題が提示される。
現在の頑健な学習技術を用いた最初の実験では、ノイズの多いデータに対するクロスエントロピートレーニングと比較して、ノイズの多いOstracodsデータセットの性能が大幅に向上することはなかった。
一方、ノイズ検出手法は、問題のあるラベルを識別するための単純なクロスバリデーションアンサンブルに比べて、誤りヒット率が低い。
これらの結果から, データセットの微粒化, 不均衡, 複雑なノイズ特性は, 既存のノイズロバストアルゴリズムにかなりの課題をもたらすことが示唆された。
Noisy Ostracodsデータセットをオープンにリリースすることで、きめ細かい分類タスクにおいて、多種多様な現実世界のノイズを効果的に処理できるノイズ耐性機械学習手法の開発を、さらに研究することを目標にしています。
データセットと評価プロトコルはhttps://github.com/H-Jamieu/Noisy_ostracodsでアクセスできる。
関連論文リスト
- Correcting Noisy Multilabel Predictions: Modeling Label Noise through Latent Space Shifts [4.795811957412855]
ほとんどの現実世界の機械学習アプリケーションでは、データのノイズは避けられないように思える。
マルチラベル分類における雑音ラベル学習の分野について検討した。
我々のモデルは、雑音のラベル付けは潜伏変数の変化から生じると仮定し、より堅牢で有益な学習手段を提供する。
論文 参考訳(メタデータ) (2025-02-20T05:41:52Z) - NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Learning with Group Noise [106.56780716961732]
グループノイズを用いた学習のための新しいマックスマッチング手法を提案する。
いくつかの学習パラダイムの領域における実世界のデータセットのレンジのパフォーマンスは、Max-Matchingの有効性を示している。
論文 参考訳(メタデータ) (2021-03-17T06:57:10Z) - EvidentialMix: Learning with Combined Open-set and Closed-set Noisy
Labels [30.268962418683955]
開集合ラベルと閉集合ラベルを組み合わせた雑音ラベル問題の新しい変種について検討する。
その結果,従来の最先端手法よりも優れた分類結果と特徴表現が得られた。
論文 参考訳(メタデータ) (2020-11-11T11:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。