論文の概要: Good Data from Bad Models : Foundations of Threshold-based Auto-labeling
- arxiv url: http://arxiv.org/abs/2211.12620v1
- Date: Tue, 22 Nov 2022 22:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:37:57.191682
- Title: Good Data from Bad Models : Foundations of Threshold-based Auto-labeling
- Title(参考訳): 悪いモデルから得られる良いデータ : 閾値に基づく自動ラベルの基礎
- Authors: Harit Vishwakarma, Heguang Lin, Frederic Sala, Ramya Korlakai Vinayak
- Abstract要約: 自動ラベリングシステムは、データセット構築のための手動ラベリングへの依存を減らすための有望な方法である。
人間から得られた検証データを機械学習でラベル付けした上での信頼のしきい値を見つけるThreshold-based auto-labelingは、実際に広く使われている一般的なソリューションとして現れつつある。
- 参考スコア(独自算出の注目度): 12.993939365897198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating large-scale high-quality labeled datasets is a major bottleneck in
supervised machine learning workflows. Auto-labeling systems are a promising
way to reduce reliance on manual labeling for dataset construction.
Threshold-based auto-labeling, where validation data obtained from humans is
used to find a threshold for confidence above which the data is
machine-labeled, is emerging as a popular solution used widely in practice.
Given the long shelf-life and diverse usage of the resulting datasets,
understanding when the data obtained by such auto-labeling systems can be
relied on is crucial. In this work, we analyze threshold-based auto-labeling
systems and derive sample complexity bounds on the amount of human-labeled
validation data required for guaranteeing the quality of machine-labeled data.
Our results provide two insights. First, reasonable chunks of the unlabeled
data can be automatically and accurately labeled by seemingly bad models.
Second, a hidden downside of threshold-based auto-labeling systems is
potentially prohibitive validation data usage. Together, these insights
describe the promise and pitfalls of using such systems. We validate our
theoretical guarantees with simulations and study the efficacy of
threshold-based auto-labeling on real datasets.
- Abstract(参考訳): 大規模な高品質のラベル付きデータセットの作成は、教師付き機械学習ワークフローにおける大きなボトルネックである。
自動ラベルシステム(auto-labeling systems)は、データセット構築の手動ラベリングに依存しない、有望な方法である。
人間から得られた検証データを機械学習でラベル付けした上での信頼のしきい値を見つけるThreshold-based auto-labelingは、実際に広く使われている一般的なソリューションとして現れつつある。
長い棚の寿命と結果のデータセットの多様さを考えると、そのような自動ラベルシステムによって得られたデータがいつ信頼できるかを理解することが重要である。
本研究では,しきい値に基づく自動ラベルシステムを分析し,機械ラベルデータの品質を保証するのに必要なヒューマンラベル検証データ量に対するサンプルの複雑さを導出する。
私たちの結果は2つの洞察を与えます。
まず、ラベルのないデータの合理的なチャンクは、一見悪いモデルによって自動的に正確にラベル付けされる。
第二に、しきい値ベースの自動ラベルシステムの隠れた欠点は、データの使用を禁止している可能性がある。
これらの洞察を組み合わせることで、このようなシステムを使うことの約束と落とし穴が説明できる。
理論的な保証をシミュレーションで検証し,実データセットに対するしきい値に基づく自動ラベルの有効性について検討した。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Self-refining of Pseudo Labels for Music Source Separation with Noisy
Labeled Data [15.275949700129797]
音楽音源分離(MSS)は、正確にラベル付けされた個々の楽器トラックの可用性が限られているため、課題に直面している。
本稿では,ラベルを部分的に間違ってラベル付けしたデータセットに書き換える自動手法を提案する。
提案手法は, 雑音ラベル付きデータセットを用いて, 多ラベルの楽器認識において, 1%の精度劣化しか得られない。
論文 参考訳(メタデータ) (2023-07-24T07:47:21Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。