論文の概要: Self-supervised Semi-supervised Learning for Data Labeling and Quality
Evaluation
- arxiv url: http://arxiv.org/abs/2111.10932v1
- Date: Mon, 22 Nov 2021 00:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:05:18.606502
- Title: Self-supervised Semi-supervised Learning for Data Labeling and Quality
Evaluation
- Title(参考訳): データラベリングと品質評価のための自己教師付き半教師付き学習
- Authors: Haoping Bai, Meng Cao, Ping Huang, Jiulong Shan
- Abstract要約: 提案手法では,効率的なデータラベリングとアノテーション検証の課題に対処する。
本稿では,自己教師付き半教師付き学習を活用し,データラベリングや検証タスクの構築に利用する統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.483508279350195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the adoption of deep learning techniques in industrial applications grows
with increasing speed and scale, successful deployment of deep learning models
often hinges on the availability, volume, and quality of annotated data. In
this paper, we tackle the problems of efficient data labeling and annotation
verification under the human-in-the-loop setting. We showcase that the latest
advancements in the field of self-supervised visual representation learning can
lead to tools and methods that benefit the curation and engineering of natural
image datasets, reducing annotation cost and increasing annotation quality. We
propose a unifying framework by leveraging self-supervised semi-supervised
learning and use it to construct workflows for data labeling and annotation
verification tasks. We demonstrate the effectiveness of our workflows over
existing methodologies. On active learning task, our method achieves 97.0%
Top-1 Accuracy on CIFAR10 with 0.1% annotated data, and 83.9% Top-1 Accuracy on
CIFAR100 with 10% annotated data. When learning with 50% of wrong labels, our
method achieves 97.4% Top-1 Accuracy on CIFAR10 and 85.5% Top-1 Accuracy on
CIFAR100.
- Abstract(参考訳): 産業アプリケーションにおけるディープラーニング技術の採用がスピードとスケールの増加とともに増加するにつれ、ディープラーニングモデルのデプロイの成功は、注釈付きデータの可用性、ボリューム、品質にかかっていることが多い。
本稿では,人間のループ環境下での効率的なデータラベリングとアノテーション検証の課題に対処する。
自己教師付き視覚表現学習の分野における最近の進歩は、自然画像データセットのキュレーションとエンジニアリングの恩恵を受けるツールや手法、アノテーションコストの削減、アノテーション品質の向上につながる。
本稿では,自己教師付き半教師付き学習を活用し,データラベリングとアノテーション検証タスクのためのワークフローを構築するための統一フレームワークを提案する。
既存の方法論に対するワークフローの有効性を実証する。
アクティブラーニングタスクでは,0.1%アノテートデータでcifar10で97.0%,10%アノテートデータで83.9%のtop-1精度を実現する。
誤りラベルの50%を学習すると、CIFAR10で97.4%、CIFAR100で85.5%のTop-1精度が得られる。
関連論文リスト
- ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models [0.9237437350215897]
様々な情報源から13,389人の履歴書を収集した。
我々は BERT や Gemma1.1 2B などの大規模言語モデル (LLM) を分類に用いた。
その結果,従来の機械学習手法よりも大幅に改善された。
論文 参考訳(メタデータ) (2024-06-26T07:25:18Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Instant-Teaching: An End-to-End Semi-Supervised Object Detection
Framework [14.914115746675176]
半教師付きオブジェクト検出はラベルなしのデータを利用してモデルの性能を向上させることができる。
Instant-Teachingを提案する。これはトレーニングの繰り返しの指導に弱いデータ拡張を施した擬似ラベリングを用いている。
2%$ラベル付きデータを用いたMS-COCOでは,最新手法を4.2 mAP超えている。
論文 参考訳(メタデータ) (2021-03-21T14:03:36Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。