論文の概要: Generating the Ground Truth: Synthetic Data for Label Noise Research
- arxiv url: http://arxiv.org/abs/2309.04318v1
- Date: Fri, 8 Sep 2023 13:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:23:44.228453
- Title: Generating the Ground Truth: Synthetic Data for Label Noise Research
- Title(参考訳): 地中真実の生成:ラベル騒音研究のための合成データ
- Authors: Sjoerd de Vries and Dirk Thierens
- Abstract要約: ラベルノイズ研究では、通常ノイズまたは複雑なシミュレーションデータのいずれかがベースラインとして受け入れられる。
上記の方法論を改善することを目的としたフレームワークであるSynLABELを提案する。
実際のデータから通知されるノイズのないデータセットを作成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most real-world classification tasks suffer from label noise to some extent.
Such noise in the data adversely affects the generalization error of learned
models and complicates the evaluation of noise-handling methods, as their
performance cannot be accurately measured without clean labels. In label noise
research, typically either noisy or incomplex simulated data are accepted as a
baseline, into which additional noise with known properties is injected. In
this paper, we propose SYNLABEL, a framework that aims to improve upon the
aforementioned methodologies. It allows for creating a noiseless dataset
informed by real data, by either pre-specifying or learning a function and
defining it as the ground truth function from which labels are generated.
Furthermore, by resampling a number of values for selected features in the
function domain, evaluating the function and aggregating the resulting labels,
each data point can be assigned a soft label or label distribution. Such
distributions allow for direct injection and quantification of label noise. The
generated datasets serve as a clean baseline of adjustable complexity into
which different types of noise may be introduced. We illustrate how the
framework can be applied, how it enables quantification of label noise and how
it improves over existing methodologies.
- Abstract(参考訳): ほとんどの現実世界の分類タスクはある程度ラベルノイズに悩まされている。
このようなデータ中のノイズは学習モデルの一般化誤差に悪影響を及ぼし、クリーンラベルなしではその性能を正確に測定できないため、ノイズ処理手法の評価を複雑化する。
ラベルノイズ研究では、通常、ノイズまたは複雑なシミュレーションデータはベースラインとして受け入れられ、既知の特性を持つ追加ノイズが注入される。
本稿では,上記の方法論を改善するためのフレームワークであるSynLABELを提案する。
関数を事前指定または学習し、ラベルが生成される基底真理関数として定義することで、実際のデータによって通知されるノイズのないデータセットを作成することができる。
さらに、関数ドメイン内で選択された特徴の値数を再サンプリングし、関数を評価し、その結果のラベルを集約することにより、各データポイントにソフトラベルまたはラベル分布を割り当てることができる。
このような分布はラベルノイズの直接注入と定量化を可能にする。
生成されたデータセットは、さまざまな種類のノイズが導入される可能性のある、調整可能な複雑性のクリーンなベースラインとして機能する。
我々は、フレームワークの適用方法、ラベルノイズの定量化を可能にする方法、既存の方法論よりもどのように改善するかを説明します。
関連論文リスト
- Handling Realistic Label Noise in BERT Text Classification [1.0515439489916731]
実ラベルノイズはランダムではなく、入力特徴や他のアノテータ固有の要因と相関することが多い。
これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2023-05-23T18:30:31Z) - Rethinking the Value of Labels for Instance-Dependent Label Noise
Learning [43.481591776038144]
実世界のアプリケーションにおけるノイズの多いラベルは、しばしば真のラベルと機能の両方に依存します。
本研究では、ノイズ遷移行列を明示的にモデル化しない新しい深層生成モデルを用いて、インスタンス依存ラベルノイズに対処する。
提案アルゴリズムは,カジュアルな表現学習を活用し,データから高レベルのコンテンツとスタイルの潜伏要素を同時に識別する。
論文 参考訳(メタデータ) (2023-05-10T15:29:07Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - A Realistic Simulation Framework for Learning with Label Noise [17.14439597393087]
この枠組みは, ラベルノイズの重要な特徴を示す合成ノイズラベルを生成する。
また、ノイズの多いラベルで学習するための既存のアルゴリズムをベンチマークします。
本稿では、アノテータ機能を利用して雑音ラベルの予測と修正を行う新しい手法であるラベル品質モデル(LQM)を提案する。
論文 参考訳(メタデータ) (2021-07-23T18:53:53Z) - Generation and Analysis of Feature-Dependent Pseudo Noise for Training
Deep Neural Networks [0.0]
ノイズの多いラベル付きデータセット上でディープニューラルネットワーク(DNN)をトレーニングすることは難しい問題である。
そこで我々は,DNNのトレーニング予測を,真のラベル情報を保持するクリーンデータセット上で利用することにより,特徴依存型ノイズデータセットを作成するための直感的なアプローチを提案する。
我々は,Pseudoノイズデータセットが,異なる条件における特徴依存ノイズデータセットに類似していることを確認するために,いくつかの実験を行った。
論文 参考訳(メタデータ) (2021-05-22T19:15:26Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Extended T: Learning with Mixed Closed-set and Open-set Noisy Labels [86.5943044285146]
ラベルノイズ遷移行列$T$は、真のラベルがノイズのあるものへと反転する確率を反映する。
本稿では,閉集合と開集合の混在したラベル雑音下での学習に着目した。
本手法は,従来の最先端のラベル雑音学習法よりも頑健な性能を追求し,混合ラベル雑音をモデル化する。
論文 参考訳(メタデータ) (2020-12-02T02:42:45Z) - Label Noise Types and Their Effects on Deep Learning [0.0]
本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。
本稿では,特徴に依存したラベルノイズを生成する汎用フレームワークを提案する。
他の研究者がノイズの多いラベルでアルゴリズムをテストしやすいように、最も一般的に使用されているベンチマークデータセットに対して、破損したラベルを共有します。
論文 参考訳(メタデータ) (2020-03-23T18:03:39Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。