論文の概要: Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets
- arxiv url: http://arxiv.org/abs/2104.12690v1
- Date: Mon, 26 Apr 2021 16:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 18:29:08.815529
- Title: Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets
- Title(参考訳): 大規模画像分類データセットの効率的な注釈付けの実践に向けて
- Authors: Yuan-Hong Liao, Amlan Kar, Sanja Fidler
- Abstract要約: 多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
- 参考スコア(独自算出の注目度): 90.61266099147053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is the engine of modern computer vision, which necessitates collecting
large-scale datasets. This is expensive, and guaranteeing the quality of the
labels is a major challenge. In this paper, we investigate efficient annotation
strategies for collecting multi-class classification labels for a large
collection of images. While methods that exploit learnt models for labeling
exist, a surprisingly prevalent approach is to query humans for a fixed number
of labels per datum and aggregate them, which is expensive. Building on prior
work on online joint probabilistic modeling of human annotations and
machine-generated beliefs, we propose modifications and best practices aimed at
minimizing human labeling effort. Specifically, we make use of advances in
self-supervised learning, view annotation as a semi-supervised learning
problem, identify and mitigate pitfalls and ablate several key design choices
to propose effective guidelines for labeling. Our analysis is done in a more
realistic simulation that involves querying human labelers, which uncovers
issues with evaluation using existing worker simulation methods. Simulated
experiments on a 125k image subset of the ImageNet100 show that it can be
annotated to 80% top-1 accuracy with 0.35 annotations per image on average, a
2.7x and 6.7x improvement over prior work and manual annotation, respectively.
Project page: https://fidler-lab.github.io/efficient-annotation-cookbook
- Abstract(参考訳): データとは、大規模なデータセットの収集を必要とする、現代のコンピュータビジョンのエンジンである。
これは高価であり、ラベルの品質を保証することが大きな課題である。
本稿では,画像集合のための多クラス分類ラベルを収集するための効率的なアノテーション戦略について検討する。
ラベル付けのために学習モデルを利用する手法は存在するが、驚くほど一般的なアプローチは、人間に1ダータあたりのラベルの固定数を問い合わせ、それらを集約することである。
人間のアノテーションとマシン生成信念のオンライン共同確率的モデリングを先行研究として,人間のラベル付け労力を最小化するための修正とベストプラクティスを提案する。
具体的には,自己教師付き学習の進歩,アノテーションを半教師付き学習問題として見ること,落とし穴を特定し軽減すること,いくつかの重要な設計選択を省略してラベル付けの効果的なガイドラインを提案する。
既存の作業者シミュレーション手法を用いて評価を行った結果,人間のラベルを問合せするより現実的なシミュレーションを行った。
ImageNet100の125k画像サブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度にアノテートでき、以前の作業と手動のアノテーションよりも2.7倍と6.7倍改善されている。
プロジェクトページ: https://fidler-lab.github.io/efficient-annotation-cookbook
関連論文リスト
- One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Label Selection Approach to Learning from Crowds [25.894399244406287]
Crowdsからの学習は、群衆労働者のラベル付きデータを使ってモデルを直接訓練するフレームワークである。
本稿では,選択型予測問題に対してSelectiveNetに着想を得た新しいLearning from Crowdsモデルを提案する。
提案手法の主な利点は、教師付き学習問題のほとんど全ての変種に適用できることである。
論文 参考訳(メタデータ) (2023-08-21T00:22:32Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Improving Model Training via Self-learned Label Representations [5.969349640156469]
より洗練されたラベル表現は、通常のワンホット符号化よりも分類に適していることが示される。
分類タスクの学習中にラベル表現を同時に学習する適応ラベル付き学習(LwAL)アルゴリズムを提案する。
我々のアルゴリズムは無視可能な追加パラメータを導入し、計算オーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2022-09-09T21:10:43Z) - Semantic Segmentation with Active Semi-Supervised Learning [23.79742108127707]
本稿では,能動的学習と半教師付き学習を組み合わせた新しいアルゴリズムを提案する。
本手法は,ネットワークの性能の95%以上をフルトレーニングセットで取得する。
論文 参考訳(メタデータ) (2022-03-21T04:16:25Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。
負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-09-14T03:06:23Z) - Big Self-Supervised Models are Strong Semi-Supervised Learners [116.00752519907725]
ImageNet上での半教師あり学習に驚くほど効果的であることを示す。
我々のアプローチの重要な要素は、事前訓練と微調整において大きな(深度と広度)ネットワークを使用することである。
ラベルが少なくなればなるほど、より大きなネットワークから、このアプローチ(ラベル付きデータのタスクに依存しない使用)が恩恵を受けることが分かっています。
論文 参考訳(メタデータ) (2020-06-17T17:48:22Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。