論文の概要: Minimum Cost Active Labeling
- arxiv url: http://arxiv.org/abs/2006.13999v1
- Date: Wed, 24 Jun 2020 19:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:05:29.530633
- Title: Minimum Cost Active Labeling
- Title(参考訳): 最小コストアクティブラベリング
- Authors: Hang Qiu, Krishna Chintalapudi, Ramesh Govindan
- Abstract要約: ミンコストラベリングは、モデルを学ぶためにアクティブラーニングの変種を使用し、最適なトレーニングセットサイズを予測する。
いくつかのケースでは、我々のアプローチは人間のラベル付けに比べて6倍のコストがかかり、常に最も安価なアクティブラーニング戦略よりも安い。
- 参考スコア(独自算出の注目度): 2.0754848504005587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling a data set completely is important for groundtruth generation. In
this paper, we consider the problem of minimum-cost labeling: classifying all
images in a large data set with a target accuracy bound at minimum dollar cost.
Human labeling can be prohibitive, so we train a classifier to accurately label
part of the data set. However, training the classifier can be expensive too,
particularly with active learning. Our min-cost labeling uses a variant of
active learning to learn a model to predict the optimal training set size for
the classifier that minimizes overall cost, then uses active learning to train
the classifier to maximize the number of samples the classifier can correctly
label. We validate our approach on well-known public data sets such as Fashion,
CIFAR-10, and CIFAR-100. In some cases, our approach has 6X lower overall cost
relative to human labeling, and is always cheaper than the cheapest active
learning strategy.
- Abstract(参考訳): データセットを完全にラベル付けすることは、地平線生成にとって重要である。
本稿では,最小コストのラベル付けの問題として,目標精度を最小コストで制限した大規模データセットに,すべての画像を分類することを考える。
人間のラベル付けは禁じられるので、分類器を訓練してデータセットの一部を正確にラベル付けします。
しかし、特に活発な学習では、分類器の訓練も高価である。
我々のミンコストラベリングでは、モデル学習にアクティブラーニングを用いて、全体的なコストを最小化する分類器の最適トレーニングセットサイズを予測し、次に、アクティブラーニングを使用して分類器をトレーニングし、正しくラベル付けできるサンプル数を最大化する。
我々は、Fashion、CIFAR-10、CIFAR-100といった有名な公開データセットに対するアプローチを検証する。
このアプローチは、人間のラベル付けに比べて6倍のコストで、最も安価なアクティブラーニング戦略よりも常に安価です。
関連論文リスト
- Calpric: Inclusive and Fine-grain Labeling of Privacy Policies with
Crowdsourcing and Active Learning [5.279873919047532]
本稿では,自動テキスト選択とセグメンテーション,アクティブラーニング,クラウドソースアノテータの利用を併用して,プライバシーポリシーのための大規模かつバランスの取れたトレーニングセットを低コストで生成するCalpricを提案する。
Calpricのトレーニングプロセスは、9つのデータカテゴリにまたがる16Kのプライバシポリシテキストセグメントのラベル付きデータセットも生成する。
論文 参考訳(メタデータ) (2024-01-16T01:27:26Z) - Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
本稿では,ラベルスキュード・フェデレーション学習の新しいアプローチであるFedVLSを紹介する。
空のクラス蒸留とロジット抑制を同時に統合する。
FedVLSの有効性を検証する実験は、従来のSOTA(State-of-the-art)法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - Tackling Concept Shift in Text Classification using Entailment-style
Modeling [2.2588825300186426]
本稿では,バニラ分類をentailment-style問題に変換する改定法を提案する。
提案手法が実世界と合成データセットの両方に与える影響を実証する。
論文 参考訳(メタデータ) (2023-11-06T18:15:36Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Cost-Accuracy Aware Adaptive Labeling for Active Learning [9.761953860259942]
多くの実環境において、異なるラベルには異なるラベルのコストがあり、異なるラベルの精度が得られる。
本稿では, インスタンス, ラベル付け者と対応するコストを選択し, ラベル付け精度を向上するための新しいアルゴリズムを提案する。
提案アルゴリズムは,5つのUCIおよび実際のクラウドソーシングデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-05-24T17:21:00Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Labels, Information, and Computation: Efficient, Privacy-Preserving
Learning Using Sufficient Labels [0.0]
すべてのトレーニング例について,完全なラベル情報が必要な訳ではありません。
この統計を「十分なラベル付きデータ」と呼び、その完全性と効率性を証明する。
十分にラベル付けされたデータは、絶対的な情報ではなく、親戚を格納することで、ユーザのプライバシを自然に保存する。
論文 参考訳(メタデータ) (2021-04-19T02:15:25Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。