論文の概要: Analysing the Noise Model Error for Realistic Noisy Label Data
- arxiv url: http://arxiv.org/abs/2101.09763v2
- Date: Mon, 1 Mar 2021 11:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:19:48.415589
- Title: Analysing the Noise Model Error for Realistic Noisy Label Data
- Title(参考訳): 実雑音ラベルデータに対するノイズモデル誤差の解析
- Authors: Michael A. Hedderich, Dawei Zhu, Dietrich Klakow
- Abstract要約: 本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
NLPドメインから新たなノイズラベルデータセットであるNoisyNERも公開しています。
- 参考スコア(独自算出の注目度): 14.766574408868806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distant and weak supervision allow to obtain large amounts of labeled
training data quickly and cheaply, but these automatic annotations tend to
contain a high amount of errors. A popular technique to overcome the negative
effects of these noisy labels is noise modelling where the underlying noise
process is modelled. In this work, we study the quality of these estimated
noise models from the theoretical side by deriving the expected error of the
noise model. Apart from evaluating the theoretical results on commonly used
synthetic noise, we also publish NoisyNER, a new noisy label dataset from the
NLP domain that was obtained through a realistic distant supervision technique.
It provides seven sets of labels with differing noise patterns to evaluate
different noise levels on the same instances. Parallel, clean labels are
available making it possible to study scenarios where a small amount of
gold-standard data can be leveraged. Our theoretical results and the
corresponding experiments give insights into the factors that influence the
noise model estimation like the noise distribution and the sampling technique.
- Abstract(参考訳): 距離と弱い監視により、大量のラベル付きトレーニングデータを迅速かつ安価に取得することができるが、これらの自動アノテーションは大量のエラーを含む傾向がある。
これらのノイズラベルの負の影響を克服するための一般的な技術は、基礎となるノイズプロセスがモデル化されるノイズモデリングです。
本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
一般的な合成ノイズに関する理論的結果の他に,NLPドメインから得られたノイズラベルデータセットであるNoisyNERも,現実的な遠隔監視技術を用いて公開している。
異なるノイズパターンを持つ7種類のラベルを提供し、同じインスタンスで異なるノイズレベルを評価する。
並行してクリーンなラベルが利用可能であり、少量の金標準データを活用できるシナリオを研究できる。
理論結果とそれに対応する実験は,騒音分布やサンプリング手法などの騒音モデル推定に影響を与える要因について知見を与える。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Denoising Enhanced Distantly Supervised Ultrafine Entity Typing [36.14308856513851]
本研究では,未知のラベル付き雑音分布を入力コンテキストおよび雑音型ラベル上で推定するノイズモデルを構築した。
ノイズモデルにより、推定ノイズを入力から減じることで、より信頼できるラベルを復元することができる。
本稿では,バイエンコーダアーキテクチャを採用したエンティティ型付けモデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T05:20:16Z) - Label noise detection under the Noise at Random model with ensemble
filters [5.994719700262245]
本研究では、2つの異なる雑音モデルの下でのアンサンブルノイズ検出の性能について検討する。
データセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2021-12-02T21:49:41Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。