論文の概要: Improve learning combining crowdsourced labels by weighting Areas Under
the Margin
- arxiv url: http://arxiv.org/abs/2209.15380v1
- Date: Fri, 30 Sep 2022 11:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:05:46.050780
- Title: Improve learning combining crowdsourced labels by weighting Areas Under
the Margin
- Title(参考訳): マージン下の重み付けによるクラウドソーシングラベルの統合学習の改善
- Authors: Tanguy Lefort and Benjamin Charlier and Alexis Joly and Joseph Salmon
- Abstract要約: 我々は、クラウドソーシング学習シナリオにおいて、誤ラベル付きデータを識別するために、AUM(Area Under the Margin)統計に適応する。
WAUMはトレーニングセットからあいまいなタスクを捨てるのに役立ち、一般化や校正性能が向上することを示す。
- 参考スコア(独自算出の注目度): 11.470070927586017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In supervised learning -- for instance in image classification -- modern
massive datasets are commonly labeled by a crowd of workers. The obtained
labels in this crowdsourcing setting are then aggregated for training. The
aggregation step generally leverages a per worker trust score. Yet, such
worker-centric approaches discard each task ambiguity. Some intrinsically
ambiguous tasks might even fool expert workers, which could eventually be
harmful for the learning step. In a standard supervised learning setting --
with one label per task and balanced classes -- the Area Under the Margin (AUM)
statistic is tailored to identify mislabeled data. We adapt the AUM to identify
ambiguous tasks in crowdsourced learning scenarios, introducing the Weighted
AUM (WAUM). The WAUM is an average of AUMs weighted by worker and task
dependent scores. We show that the WAUM can help discarding ambiguous tasks
from the training set, leading to better generalization or calibration
performance. We report improvements with respect to feature-blind aggregation
strategies both for simulated settings and for the CIFAR-10H crowdsourced
dataset.
- Abstract(参考訳): 教師付き学習(例えば画像分類)では、現代の大規模データセットは、一般に労働者の群れによってラベル付けされる。
このクラウドソーシング設定で得られたラベルは、トレーニングのために集約される。
集約ステップは一般的に、労働者ごとの信頼スコアを利用する。
しかし、労働者中心のアプローチは各タスクのあいまいさを捨てる。
本質的に曖昧なタスクの中には、専門家の労働者を騙すようなものもあります。
標準的な教師付き学習設定(タスク毎にひとつのラベルとバランスのとれたクラス)では、マージン(aum)の下の領域は、誤ってラベルされたデータを識別するために調整されます。
我々は、クラウドソーシング学習シナリオにおけるあいまいなタスクを特定するためにAUMを適用し、Weighted AUM (WAUM)を導入した。
WAUMは、労働者とタスク依存スコアによって重み付けされるAUMの平均値である。
WAUMはトレーニングセットから曖昧なタスクを捨てるのに役立ち、一般化や校正性能が向上することを示す。
シミュレーション設定とCIFAR-10Hクラウドソースデータセットの両方を対象として,特徴量集約戦略の改善について報告する。
関連論文リスト
- Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Using Self-Supervised Pretext Tasks for Active Learning [7.214674613451605]
本稿では,自己教師付きプレテキストタスクとユニークなデータサンプリング機能を利用して,困難かつ代表的なデータを選択する,新しいアクティブラーニング手法を提案する。
プレテキストタスク学習者は、未ラベルのセットでトレーニングされ、未ラベルのデータは、そのプレテキストタスクの損失によって、バッチにソートされ、グループ化される。
各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチで最も不確実なデータをサンプリングする。
論文 参考訳(メタデータ) (2022-01-19T07:58:06Z) - CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and
Segmentation [60.28924281991539]
本稿では,タスク固有性バランスを向上するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。
我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-12-09T14:54:59Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Boosting the Performance of Semi-Supervised Learning with Unsupervised
Clustering [10.033658645311188]
学習中の間欠的にラベルを完全に無視することは,小サンプル体制における性能を著しく向上させることを示す。
本手法は,最先端のSSLアルゴリズムの高速化に有効であることを示す。
論文 参考訳(メタデータ) (2020-12-01T14:19:14Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Deep Categorization with Semi-Supervised Self-Organizing Maps [0.0]
本稿では,Batch Semi-Supervised Self-Organizing Map (Batch SS-SOM)と呼ばれる半教師付きモデルを提案する。
その結果,Batch SS-SOMは半教師付き分類とクラスタリングに最適であることがわかった。
少数のラベル付きサンプルであっても、精度とクラスタリングエラーの点でうまく機能する。
論文 参考訳(メタデータ) (2020-06-17T22:00:04Z) - Task-Aware Variational Adversarial Active Learning [42.334671410592065]
本稿では,タスク非依存のVAALを修飾するタスク対応可変逆数AL(TA-VAAL)を提案する。
提案するTA-VAALは、バランスの取れたラベルとバランスの取れないラベルの分類のための様々なベンチマークデータセットにおいて、最先端の性能を向上する。
論文 参考訳(メタデータ) (2020-02-11T22:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。