論文の概要: Coupled Confusion Correction: Learning from Crowds with Sparse
Annotations
- arxiv url: http://arxiv.org/abs/2312.07331v1
- Date: Tue, 12 Dec 2023 14:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:36:07.466300
- Title: Coupled Confusion Correction: Learning from Crowds with Sparse
Annotations
- Title(参考訳): Coupled Confusion Correction: 疎アノテーションを持つ群衆から学ぶ
- Authors: Hansong Zhang, Shikun Li, Dan Zeng, Chenggang Yan, Shiming Ge
- Abstract要約: 2つのモデルで学習した融合行列は、他のモデルの蒸留データによって補正することができる。
我々は、類似の専門知識を共有するアノテータグループの'をクラスタ化し、それらの混乱行列を一緒に修正できるようにします。
- 参考スコア(独自算出の注目度): 43.94012824749425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size of the datasets getting larger, accurately annotating such
datasets is becoming more impractical due to the expensiveness on both time and
economy. Therefore, crowd-sourcing has been widely adopted to alleviate the
cost of collecting labels, which also inevitably introduces label noise and
eventually degrades the performance of the model. To learn from crowd-sourcing
annotations, modeling the expertise of each annotator is a common but
challenging paradigm, because the annotations collected by crowd-sourcing are
usually highly-sparse. To alleviate this problem, we propose Coupled Confusion
Correction (CCC), where two models are simultaneously trained to correct the
confusion matrices learned by each other. Via bi-level optimization, the
confusion matrices learned by one model can be corrected by the distilled data
from the other. Moreover, we cluster the ``annotator groups'' who share similar
expertise so that their confusion matrices could be corrected together. In this
way, the expertise of the annotators, especially of those who provide seldom
labels, could be better captured. Remarkably, we point out that the annotation
sparsity not only means the average number of labels is low, but also there are
always some annotators who provide very few labels, which is neglected by
previous works when constructing synthetic crowd-sourcing annotations. Based on
that, we propose to use Beta distribution to control the generation of the
crowd-sourcing labels so that the synthetic annotations could be more
consistent with the real-world ones. Extensive experiments are conducted on two
types of synthetic datasets and three real-world datasets, the results of which
demonstrate that CCC significantly outperforms state-of-the-art approaches.
- Abstract(参考訳): データセットのサイズが大きくなるにつれて、こうしたデータセットに正確に注釈をつけることは、時間と経済の両方で高価なため、現実的ではない。
そのため,ラベルの収集コストを軽減するためにクラウドソーシングが広く採用され,ラベルノイズも必然的に導入され,最終的にはモデルの性能が低下する。
クラウドソーシングアノテーションから学ぶためには、各アノテータの専門知識をモデル化するのが一般的だが、クラウドソーシングによって収集されるアノテーションは通常、非常に疎結合である。
この問題を緩和するために,2つのモデルを同時に訓練し,相互に学習した混乱行列を補正する結合混乱補正(ccc)を提案する。
バイレベル最適化により、一方のモデルで学習した混乱行列は他方からの蒸留データによって補正できる。
さらに,類似の専門知識を共有する ‘annotator groups'' をクラスタ化し,それらの混乱行列を一緒に修正する。
このように、アノテーターの専門知識、特にめったにないラベルを提供する人の専門知識は、よりよく捉えられる。
注意すべき点として、アノテーションの空間性は、平均的なラベル数が低いことを意味するだけでなく、非常に少ないラベルを提供するアノテータが常に存在することを指摘した。
そこで我々は,クラウドソーシングラベルの生成を制御するために,ベータディストリビューションを使用することを提案する。
2種類の合成データセットと3つの実世界のデータセットで大規模な実験を行い、CCCが最先端のアプローチを著しく上回ることを示した。
関連論文リスト
- Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Improving Classifier Robustness through Active Generation of Pairwise
Counterfactuals [22.916599410472102]
本稿では,カウンターファクト・ジェネレーティブ・モデルを用いて多種多様なカウンターファクト・モデルを生成する新しいフレームワークを提案する。
少量の人間注釈付き対実データ(10%)で、学習ラベルを用いた対実データ拡張データセットを生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-22T23:19:01Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Improve Learning from Crowds via Generative Augmentation [36.38523364192051]
クラウドソーシングは、教師付き機械学習のための効率的なラベル収集スキーマを提供する。
アノテーションのコストを制御するため、クラウドソースされたデータの各インスタンスは通常、少数のアノテーションによって注釈付けされる。
これにより、余分な問題が発生し、そのようなデータでトレーニングされた機械学習モデルの品質が制限される。
論文 参考訳(メタデータ) (2021-07-22T04:14:30Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - CrowdTeacher: Robust Co-teaching with Noisy Answers & Sample-specific
Perturbations for Tabular Data [8.276156981100364]
コティーチング手法は、ノイズの多いラベルによるコンピュータビジョン問題に対する有望な改善を示している。
我々のモデルであるcrowdteacherは、入力空間モデルのロバスト性がノイズラベルの分類器の摂動を改善することができるという考えを採用している。
合成データと実データの両方でCrowdTeacherを用いて予測能力の向上を示す。
論文 参考訳(メタデータ) (2021-03-31T15:09:38Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。