Fugu-MT 論文翻訳(概要): Generating the Ground Truth: Synthetic Data for Label Noise Research

論文の概要: Generating the Ground Truth: Synthetic Data for Label Noise Research

arxiv url: http://arxiv.org/abs/2309.04318v1
Date: Fri, 8 Sep 2023 13:31:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-11 13:23:44.228453
Title: Generating the Ground Truth: Synthetic Data for Label Noise Research
Title（参考訳）: 地中真実の生成:ラベル騒音研究のための合成データ
Authors: Sjoerd de Vries and Dirk Thierens
Abstract要約: ラベルノイズ研究では、通常ノイズまたは複雑なシミュレーションデータのいずれかがベースラインとして受け入れられる。上記の方法論を改善することを目的としたフレームワークであるSynLABELを提案する。実際のデータから通知されるノイズのないデータセットを作成することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most real-world classification tasks suffer from label noise to some extent. Such noise in the data adversely affects the generalization error of learned models and complicates the evaluation of noise-handling methods, as their performance cannot be accurately measured without clean labels. In label noise research, typically either noisy or incomplex simulated data are accepted as a baseline, into which additional noise with known properties is injected. In this paper, we propose SYNLABEL, a framework that aims to improve upon the aforementioned methodologies. It allows for creating a noiseless dataset informed by real data, by either pre-specifying or learning a function and defining it as the ground truth function from which labels are generated. Furthermore, by resampling a number of values for selected features in the function domain, evaluating the function and aggregating the resulting labels, each data point can be assigned a soft label or label distribution. Such distributions allow for direct injection and quantification of label noise. The generated datasets serve as a clean baseline of adjustable complexity into which different types of noise may be introduced. We illustrate how the framework can be applied, how it enables quantification of label noise and how it improves over existing methodologies.
Abstract（参考訳）: ほとんどの現実世界の分類タスクはある程度ラベルノイズに悩まされている。このようなデータ中のノイズは学習モデルの一般化誤差に悪影響を及ぼし、クリーンラベルなしではその性能を正確に測定できないため、ノイズ処理手法の評価を複雑化する。ラベルノイズ研究では、通常、ノイズまたは複雑なシミュレーションデータはベースラインとして受け入れられ、既知の特性を持つ追加ノイズが注入される。本稿では,上記の方法論を改善するためのフレームワークであるSynLABELを提案する。関数を事前指定または学習し、ラベルが生成される基底真理関数として定義することで、実際のデータによって通知されるノイズのないデータセットを作成することができる。さらに、関数ドメイン内で選択された特徴の値数を再サンプリングし、関数を評価し、その結果のラベルを集約することにより、各データポイントにソフトラベルまたはラベル分布を割り当てることができる。このような分布はラベルノイズの直接注入と定量化を可能にする。生成されたデータセットは、さまざまな種類のノイズが導入される可能性のある、調整可能な複雑性のクリーンなベースラインとして機能する。我々は、フレームワークの適用方法、ラベルノイズの定量化を可能にする方法、既存の方法論よりもどのように改善するかを説明します。

関連論文リスト

Inaccurate Label Distribution Learning with Dependency Noise [52.08553913094809]
本稿では,依存雑音に基づく不正確なラベル分布学習(DN-ILDL)フレームワークを導入し,ラベル分布学習におけるノイズによる課題に対処する。本稿では,DN-ILDLがILDL問題に効果的に対処し,既存のLCL法より優れていることを示す。
論文参考訳（メタデータ） (2024-05-26T07:58:07Z)
Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文参考訳（メタデータ） (2024-04-10T07:34:37Z)
Group Benefits Instances Selection for Data Purification [21.977432359384835]
ラベルノイズと戦う既存の方法は通常、合成データセット上で設計およびテストされる。本稿では,合成および実世界の両方のデータセットに対するノイズラベル問題を緩和するGRIPという手法を提案する。
論文参考訳（メタデータ） (2024-03-23T03:06:19Z)
NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文参考訳（メタデータ） (2023-05-18T05:01:04Z)
Rethinking the Value of Labels for Instance-Dependent Label Noise Learning [43.481591776038144]
実世界のアプリケーションにおけるノイズの多いラベルは、しばしば真のラベルと機能の両方に依存します。本研究では、ノイズ遷移行列を明示的にモデル化しない新しい深層生成モデルを用いて、インスタンス依存ラベルノイズに対処する。提案アルゴリズムは,カジュアルな表現学習を活用し,データから高レベルのコンテンツとスタイルの潜伏要素を同時に識別する。
論文参考訳（メタデータ） (2023-05-10T15:29:07Z)
Learning with Noisy Labels Revisited: A Study Using Real-World Human Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文参考訳（メタデータ） (2021-10-22T22:42:11Z)
Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文参考訳（メタデータ） (2021-09-07T10:42:54Z)
A Realistic Simulation Framework for Learning with Label Noise [17.14439597393087]
この枠組みは, ラベルノイズの重要な特徴を示す合成ノイズラベルを生成する。また、ノイズの多いラベルで学習するための既存のアルゴリズムをベンチマークします。本稿では、アノテータ機能を利用して雑音ラベルの予測と修正を行う新しい手法であるラベル品質モデル(LQM)を提案する。
論文参考訳（メタデータ） (2021-07-23T18:53:53Z)
Tackling Instance-Dependent Label Noise via a Universal Probabilistic Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文参考訳（メタデータ） (2021-01-14T05:43:51Z)
A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文参考訳（メタデータ） (2020-12-22T06:36:58Z)
Label Noise Types and Their Effects on Deep Learning [0.0]
本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。本稿では,特徴に依存したラベルノイズを生成する汎用フレームワークを提案する。他の研究者がノイズの多いラベルでアルゴリズムをテストしやすいように、最も一般的に使用されているベンチマークデータセットに対して、破損したラベルを共有します。
論文参考訳（メタデータ） (2020-03-23T18:03:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。