論文の概要: Identify ambiguous tasks combining crowdsourced labels by weighting
Areas Under the Margin
- arxiv url: http://arxiv.org/abs/2209.15380v3
- Date: Thu, 30 Nov 2023 15:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 19:15:36.648298
- Title: Identify ambiguous tasks combining crowdsourced labels by weighting
Areas Under the Margin
- Title(参考訳): 地域重み付けによるクラウドソースラベルを組み合わせた曖昧なタスクの同定
- Authors: Tanguy Lefort and Benjamin Charlier and Alexis Joly and Joseph Salmon
- Abstract要約: 曖昧なタスクは専門家の労働者を騙しかねない。
我々は、クラウドソースの学習シナリオにおいて、誤ってラベル付けされたデータを識別するために、AUM(Area Under the Margin)を適用する。
WAUMは、トレーニングセットからあいまいなタスクを捨てるのに役立ち、一般化性能が向上することを示す。
- 参考スコア(独自算出の注目度): 13.437403258942716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In supervised learning - for instance in image classification - modern
massive datasets are commonly labeled by a crowd of workers. The obtained
labels in this crowdsourcing setting are then aggregated for training,
generally leveraging a per-worker trust score. Yet, such workers oriented
approaches discard the tasks' ambiguity. Ambiguous tasks might fool expert
workers, which is often harmful for the learning step. In standard supervised
learning settings - with one label per task - the Area Under the Margin (AUM)
was tailored to identify mislabeled data. We adapt the AUM to identify
ambiguous tasks in crowdsourced learning scenarios, introducing the Weighted
Areas Under the Margin (WAUM). The WAUM is an average of AUMs weighted
according to task-dependent scores. We show that the WAUM can help discarding
ambiguous tasks from the training set, leading to better generalization
performance. We report improvements over existing strategies for learning with
a crowd, both on simulated settings, and on real datasets such as CIFAR-10H (a
crowdsourced dataset with a high number of answered labels),LabelMe and Music
(two datasets with few answered votes).
- Abstract(参考訳): 教師付き学習(例えば画像分類)では、現代の大規模データセットは、一般に労働者の群れによってラベル付けされる。
このクラウドソーシング設定で得られたラベルは、トレーニングのために集約され、一般的に、同僚毎の信頼スコアを利用する。
しかし、そのような労働者指向のアプローチはタスクの曖昧さを捨てる。
曖昧なタスクは専門家の労働者を騙しかねない。
標準的な教師付き学習設定 - タスク毎にひとつのラベル - では、マージン(aum)下の領域は、誤ったラベルデータを特定するために調整された。
我々は、クラウドソーシング学習シナリオにおけるあいまいなタスクを特定するためにAUMを適用し、Weighted Areas Under the Margin (WAUM)を導入した。
WAUMはタスク依存スコアに応じて重み付けされたAUMの平均値である。
WAUMはトレーニングセットからあいまいなタスクを捨てるのに役立ち、より優れた一般化性能が得られることを示す。
CIFAR-10H(多数の回答ラベルを持つクラウドソースデータセット)、LabelMe、Music(回答数が少ない2つのデータセット)といった実際のデータセット上で、群衆による学習戦略の改善について報告する。
関連論文リスト
- Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Using Self-Supervised Pretext Tasks for Active Learning [7.214674613451605]
本稿では,自己教師付きプレテキストタスクとユニークなデータサンプリング機能を利用して,困難かつ代表的なデータを選択する,新しいアクティブラーニング手法を提案する。
プレテキストタスク学習者は、未ラベルのセットでトレーニングされ、未ラベルのデータは、そのプレテキストタスクの損失によって、バッチにソートされ、グループ化される。
各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチで最も不確実なデータをサンプリングする。
論文 参考訳(メタデータ) (2022-01-19T07:58:06Z) - CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and
Segmentation [60.28924281991539]
本稿では,タスク固有性バランスを向上するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。
我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-12-09T14:54:59Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Boosting the Performance of Semi-Supervised Learning with Unsupervised
Clustering [10.033658645311188]
学習中の間欠的にラベルを完全に無視することは,小サンプル体制における性能を著しく向上させることを示す。
本手法は,最先端のSSLアルゴリズムの高速化に有効であることを示す。
論文 参考訳(メタデータ) (2020-12-01T14:19:14Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Deep Categorization with Semi-Supervised Self-Organizing Maps [0.0]
本稿では,Batch Semi-Supervised Self-Organizing Map (Batch SS-SOM)と呼ばれる半教師付きモデルを提案する。
その結果,Batch SS-SOMは半教師付き分類とクラスタリングに最適であることがわかった。
少数のラベル付きサンプルであっても、精度とクラスタリングエラーの点でうまく機能する。
論文 参考訳(メタデータ) (2020-06-17T22:00:04Z) - Task-Aware Variational Adversarial Active Learning [42.334671410592065]
本稿では,タスク非依存のVAALを修飾するタスク対応可変逆数AL(TA-VAAL)を提案する。
提案するTA-VAALは、バランスの取れたラベルとバランスの取れないラベルの分類のための様々なベンチマークデータセットにおいて、最先端の性能を向上する。
論文 参考訳(メタデータ) (2020-02-11T22:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。