論文の概要: Promises and Pitfalls of Threshold-based Auto-labeling
- arxiv url: http://arxiv.org/abs/2211.12620v2
- Date: Thu, 22 Feb 2024 02:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:19:13.919899
- Title: Promises and Pitfalls of Threshold-based Auto-labeling
- Title(参考訳): Threshold-based Auto-labeling の約束と落とし穴
- Authors: Harit Vishwakarma, Heguang Lin, Frederic Sala, Ramya Korlakai Vinayak
- Abstract要約: Threshold-based auto-labeling (TBAL)
我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。
我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
- 参考スコア(独自算出の注目度): 17.349289155257715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating large-scale high-quality labeled datasets is a major bottleneck in
supervised machine learning workflows. Threshold-based auto-labeling (TBAL),
where validation data obtained from humans is used to find a confidence
threshold above which the data is machine-labeled, reduces reliance on manual
annotation. TBAL is emerging as a widely-used solution in practice. Given the
long shelf-life and diverse usage of the resulting datasets, understanding when
the data obtained by such auto-labeling systems can be relied on is crucial.
This is the first work to analyze TBAL systems and derive sample complexity
bounds on the amount of human-labeled validation data required for guaranteeing
the quality of machine-labeled data. Our results provide two crucial insights.
First, reasonable chunks of unlabeled data can be automatically and accurately
labeled by seemingly bad models. Second, a hidden downside of TBAL systems is
potentially prohibitive validation data usage. Together, these insights
describe the promise and pitfalls of using such systems. We validate our
theoretical guarantees with extensive experiments on synthetic and real
datasets.
- Abstract(参考訳): 大規模な高品質のラベル付きデータセットの作成は、教師付き機械学習ワークフローにおける大きなボトルネックである。
しきい値に基づく自動ラベル(tbal)は、人間から得られた検証データを使用して、そのデータがマシンラベルされている信頼しきい値を見つけることで、手動アノテーションへの依存度を低減する。
TBALは実際に広く利用されているソリューションとして現れています。
長い棚の寿命と結果のデータセットの多様さを考えると、そのような自動ラベルシステムによって得られたデータがいつ信頼できるかを理解することが重要である。
これはTBALシステムを分析し、マシンラベルデータの品質を保証するのに必要な人間ラベル付き検証データの量に依存するサンプル複雑性を導出する最初の試みである。
私たちの結果は2つの重要な洞察を与えます。
まず、ラベルなしデータの妥当な断片は、一見悪いモデルによって自動的に正確にラベル付けされる。
第2に、TBALシステムの隠れた欠点は、データの使用を禁止している可能性がある。
これらの洞察を組み合わせることで、このようなシステムを使うことの約束と落とし穴が説明できる。
合成および実データセットに関する広範な実験により理論的保証を検証する。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Self-refining of Pseudo Labels for Music Source Separation with Noisy
Labeled Data [15.275949700129797]
音楽音源分離(MSS)は、正確にラベル付けされた個々の楽器トラックの可用性が限られているため、課題に直面している。
本稿では,ラベルを部分的に間違ってラベル付けしたデータセットに書き換える自動手法を提案する。
提案手法は, 雑音ラベル付きデータセットを用いて, 多ラベルの楽器認識において, 1%の精度劣化しか得られない。
論文 参考訳(メタデータ) (2023-07-24T07:47:21Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。