論文の概要: Learning from Crowds with Sparse and Imbalanced Annotations
- arxiv url: http://arxiv.org/abs/2107.05039v1
- Date: Sun, 11 Jul 2021 13:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:53:32.528891
- Title: Learning from Crowds with Sparse and Imbalanced Annotations
- Title(参考訳): 空白と不均衡アノテーションによる集団からの学習
- Authors: Ye Shi, Shao-Yuan Li, Sheng-Jun Huang
- Abstract要約: クラウドソーシングは、非専門家の群衆を頼りにすることで、効率的なラベリングソリューションとして自らを確立した。
一般的には、各インスタンスを複数のワーカに配布するが、各ワーカはデータのサブセットのみをアノテートする。
本稿では、自信ある擬似アノテーションを段階的に追加し、アノテーション分布を再バランスさせることにより、自己学習に基づく1つのアプローチ、Self-Crowdを提案する。
- 参考スコア(独自算出の注目度): 29.596070201105274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional supervised learning requires ground truth labels for the training
data, whose collection can be difficult in many cases. Recently, crowdsourcing
has established itself as an efficient labeling solution through resorting to
non-expert crowds. To reduce the labeling error effects, one common practice is
to distribute each instance to multiple workers, whereas each worker only
annotates a subset of data, resulting in the {\it sparse annotation}
phenomenon. In this paper, we note that when meeting with class-imbalance,
i.e., when the ground truth labels are {\it class-imbalanced}, the sparse
annotations are prone to be skewly distributed, which thus can severely bias
the learning algorithm. To combat this issue, we propose one self-training
based approach named {\it Self-Crowd} by progressively adding confident
pseudo-annotations and rebalancing the annotation distribution. Specifically,
we propose one distribution aware confidence measure to select confident
pseudo-annotations, which adopts the resampling strategy to oversample the
minority annotations and undersample the majority annotations. On one
real-world crowdsourcing image classification task, we show that the proposed
method yields more balanced annotations throughout training than the
distribution agnostic methods and substantially improves the learning
performance at different annotation sparsity levels.
- Abstract(参考訳): 従来の教師付き学習では、訓練データには基礎的真理ラベルが必要であり、その収集は多くの場合困難である。
近年、クラウドソーシングは、非専門家の群衆に頼って効率的なラベリングソリューションとして確立されている。
ラベル付けエラーの影響を低減するために、各インスタンスを複数のワーカーに分散するのが一般的な方法だが、各ワーカーはデータのサブセットのみに注釈を付け、その結果、"it sparse annotation} 現象が発生する。
本稿では,クラス不均衡,すなわち,基底の真理ラベルが「クラス不均衡」である場合,スパースアノテーションは難解に分散する傾向にあり,学習アルゴリズムに悪影響を及ぼす可能性があることに留意する。
この問題に対処するために, 自信ある擬似アノテーションを徐々に追加し, アノテーション分布を再バランスさせることにより, 自己学習に基づく1つのアプローチを提案する。
具体的には,自信ある疑似アノテーションを選択するための分布意識的信頼度尺度を提案し,少数派アノテーションをオーバーサンプリングし,多数派アノテーションをアンサンプする再サンプリング戦略を採用する。
1つの実世界のクラウドソーシング画像分類タスクにおいて,提案手法は分布非依存手法よりもトレーニングを通してよりバランスの取れたアノテーションを与え,異なるアノテーションスパーシティレベルでの学習性能を大幅に向上させることを示した。
関連論文リスト
- Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。
本稿では, ラベルスキュード・フェデレート学習における新しい手法であるFedVLSについて紹介する。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Multi-View Knowledge Distillation from Crowd Annotations for
Out-of-Domain Generalization [53.24606510691877]
本稿では,既存の手法による分布を集約することで,クラウドアノテーションからソフトラベルを取得する新しい手法を提案する。
これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて、最も一貫したパフォーマンスをもたらすことを実証する。
論文 参考訳(メタデータ) (2022-12-19T12:40:18Z) - Regularizing Neural Network Training via Identity-wise Discriminative
Feature Suppression [20.89979858757123]
トレーニングサンプルの数が少ない場合、あるいはクラスラベルがうるさい場合、ネットワークはトレーニングエラーを最小限に抑えるために個々のインスタンス固有のパターンを記憶する傾向がある。
本稿では、経験的エラー最小化のために、インスタンス固有のパターンに依存するネットワークの傾向を抑えることで、改善策を検討する。
論文 参考訳(メタデータ) (2022-09-29T05:14:56Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - CrowdTeacher: Robust Co-teaching with Noisy Answers & Sample-specific
Perturbations for Tabular Data [8.276156981100364]
コティーチング手法は、ノイズの多いラベルによるコンピュータビジョン問題に対する有望な改善を示している。
我々のモデルであるcrowdteacherは、入力空間モデルのロバスト性がノイズラベルの分類器の摂動を改善することができるという考えを採用している。
合成データと実データの両方でCrowdTeacherを用いて予測能力の向上を示す。
論文 参考訳(メタデータ) (2021-03-31T15:09:38Z) - One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。
負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-09-14T03:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。