論文の概要: Learning with Noisy Labels by Targeted Relabeling
- arxiv url: http://arxiv.org/abs/2110.08355v1
- Date: Fri, 15 Oct 2021 20:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 00:14:35.779773
- Title: Learning with Noisy Labels by Targeted Relabeling
- Title(参考訳): ターゲットrelabelingによるノイズラベルによる学習
- Authors: Derek Chen, Zhou Yu, and Samuel R. Bowman
- Abstract要約: クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
- 参考スコア(独自算出の注目度): 52.0329205268734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowdsourcing platforms are often used to collect datasets for training deep
neural networks, despite higher levels of inaccurate labeling compared to
expert labeling. There are two common strategies to manage the impact of this
noise, the first involves aggregating redundant annotations, but comes at the
expense of labeling substantially fewer examples. Secondly, prior works have
also considered using the entire annotation budget to label as many examples as
possible and subsequently apply denoising algorithms to implicitly clean up the
dataset. We propose an approach which instead reserves a fraction of
annotations to explicitly relabel highly probable labeling errors. In
particular, we allocate a large portion of the labeling budget to form an
initial dataset used to train a model. This model is then used to identify
specific examples that appear most likely to be incorrect, which we spend the
remaining budget to relabel. Experiments across three model variations and four
natural language processing tasks show our approach outperforms both label
aggregation and advanced denoising methods designed to handle noisy labels when
allocated the same annotation budget.
- Abstract(参考訳): クラウドソーシングプラットフォームは、専門家のラベル付けよりも高いレベルの不正確なラベル付けにもかかわらず、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
このノイズの影響を管理するための一般的な戦略は2つあり、1つは冗長なアノテーションを集約することであるが、かなり少ない例のラベル付けを犠牲にしている。
第二に、事前の作業では、アノテーション予算全体を使用して可能な限り多くの例をラベル付けし、その後暗黙的にデータセットをクリーンアップするためにデノナイズアルゴリズムを適用することも検討されている。
そこで我々は,少数のアノテーションを予約して,高い確率のラベル付けエラーを明示的に緩和する手法を提案する。
特に、ラベル付け予算の大部分を割り当てて、モデルのトレーニングに使用する初期データセットを作成します。
このモデルは、最も誤りの可能性が高い特定の例を特定するために使用され、残りの予算をrelabelに費やします。
3つのモデルのバリエーションと4つの自然言語処理タスクをまたいだ実験により、同じアノテーション予算を割り当てた際にノイズの多いラベルを処理するように設計されたラベルアグリゲーションと高度な区切り手法の両方よりも優れた手法が示されました。
関連論文リスト
- Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - SparseDet: Improving Sparsely Annotated Object Detection with
Pseudo-positive Mining [76.95808270536318]
Pseudo- positive mining を用いてラベル付き地域とラベルなし地域を分離するエンド・ツー・エンドシステムを提案する。
ラベル付き領域は通常通り処理されるが、ラベルなし領域の処理には自己教師付き学習が使用される。
我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
論文 参考訳(メタデータ) (2022-01-12T18:57:04Z) - Multi-label Classification with Partial Annotations using Class-aware
Selective Loss [14.3159150577502]
大規模なマルチラベル分類データセットは、一般的に部分的に注釈付けされている。
部分的なラベリング問題を解析し、2つの重要なアイデアに基づいた解を提案する。
われわれの新しいアプローチにより、OpenImagesデータセット上で最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-21T08:10:55Z) - Learning with Different Amounts of Annotation: From Zero to Many Labels [19.869498599986006]
NLPシステムのトレーニングは通常、例ごとに1つの人間ラベルを持つ注釈付きデータへのアクセスを前提としている。
我々は、トレーニング例の小さなサブセットに対して、サンプル毎に複数のラベルを割り当てる、新しいアノテーション分布スキームについて検討する。
このような複数ラベルの例を、より少ない例に注釈をつけるコストで導入することは、自然言語推論タスクとエンティティ型付けタスクに明らかな利益をもたらす。
論文 参考訳(メタデータ) (2021-09-09T16:48:41Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Learning from Noisy Labels for Entity-Centric Information Extraction [17.50856935207308]
エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。
これらのモデルはタスク固有の損失と共同最適化され、同様の予測を生成するために正規化される。
結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。
論文 参考訳(メタデータ) (2021-04-17T22:49:12Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。