論文の概要: Chef: a cheap and fast pipeline for iteratively cleaning label
uncertainties
- arxiv url: http://arxiv.org/abs/2107.08588v1
- Date: Mon, 19 Jul 2021 02:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:38:22.328999
- Title: Chef: a cheap and fast pipeline for iteratively cleaning label
uncertainties
- Title(参考訳): Chef: ラベルの不確実性を反復的にクリーニングするための安価で高速なパイプライン
- Authors: Yinjun Wu, James Weimer, Susan B. Davidson
- Abstract要約: 本稿では,Chef (CHEap and Fast label cleaning) と呼ばれる,以下の3つのコンポーネントからなるソリューションを提案する。
まず、人間のアノテータのコストを削減するために、最も影響力のあるトレーニングサンプルを優先し、1人のアノテータのコストを削減するためにクリーンラベルを提供するInflを使用します。
第二に、サンプルセレクタフェーズとモデルコンストラクタフェーズを高速化するために、イントレム-Inflをインクリメンタルに生成し、DeltaGrad-Lをインクリメンタルにモデルを更新します。
第3に、一般的なラベルのクリーニングパイプラインを再設計し、人間のアノテータがより小さなサンプルを反復的にクリーニングできるようにします。
- 参考スコア(独自算出の注目度): 9.808062465919825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality labels are expensive to obtain for many machine learning tasks,
such as medical image classification tasks. Therefore, probabilistic (weak)
labels produced by weak supervision tools are used to seed a process in which
influential samples with weak labels are identified and cleaned by several
human annotators to improve the model performance. To lower the overall cost
and computational overhead of this process, we propose a solution called
Chef(CHEap and Fast label cleaning), which consists of the following three
components. First, to reduce the cost of human annotators, we use Infl, which
prioritizes the most influential training samples for cleaning and provides
cleaned labels to save the cost of one human annotator. Second, to accelerate
the sample selector phase and the model constructor phase, we use Increm-Infl
to incrementally produce influential samples, and DeltaGrad-L to incrementally
update the model. Third, we redesign the typical label cleaning pipeline so
that human annotators iteratively clean smaller batch of samples rather than
one big batch of samples. This yields better over all model performance and
enables possible early termination when the expected model performance has been
achieved. Extensive experiments show that our approach gives good model
prediction performance while achieving significant speed-ups.
- Abstract(参考訳): 高品質なラベルは、医用画像分類タスクなど、多くの機械学習タスクで取得するには高価である。
したがって、弱い監視ツールによって生成された確率的(弱く)ラベルを用いて、弱いラベルを持つ影響力のあるサンプルを複数の人間の注釈者によって識別・浄化し、モデル性能を向上させるプロセスをシードする。
このプロセス全体のコストと計算オーバーヘッドを低減するため、chef(cheap and fast label cleaning)と呼ばれるソリューションを提案し、以下の3つのコンポーネントからなる。
まず,人間のアノテータのコストを削減するために,最も影響力のあるトレーニングサンプルを優先するinflを使用し,1人のアノテータのコストを削減するためにラベルをクリーニングする。
第二に、サンプルセレクタフェーズとモデルコンストラクタフェーズを高速化するために、イントレム-Inflをインクリメンタルに生成し、DeltaGrad-Lをインクリメンタルにモデルを更新します。
第三に、一般的なラベルのクリーニングパイプラインを再設計し、人間のアノテータが1つの大きなサンプルではなく、小さなサンプルを反復的にクリーニングできるようにします。
これにより、すべてのモデルパフォーマンスが向上し、期待されるモデルパフォーマンスが達成された時点での早期終了が可能になる。
広範な実験により,本手法は大きなスピードアップを達成しつつ,優れたモデル予測性能をもたらすことが示された。
関連論文リスト
- Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - Entropy-based Training Methods for Scalable Neural Implicit Sampler [15.978655106034113]
非正規化対象分布からの効率的なサンプリングは、科学計算と機械学習の基本的な問題である。
本稿では,これらの制約を克服する,効率的でスケーラブルなニューラル暗黙サンプリング手法を提案する。
提案手法では, 提案手法を応用して, 提案手法を用いることにより, 精度の低い大量のサンプルを生成できる。
論文 参考訳(メタデータ) (2023-06-08T05:56:05Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - PASS: Peer-Agreement based Sample Selection for training with Noisy
Labels [30.922188228545906]
モデルが過度に適合する傾向にあるため、ノイズラベルはディープラーニングにおいて大きな課題となる。
ピアアグリメントに基づく新しいサンプル選択(PASS)を提案する。
次に、合意スコアに自動しきい値付け手法を適用し、クリーンでノイズの多いラベルサンプルを選択する。
論文 参考訳(メタデータ) (2023-03-20T00:35:33Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Centrality and Consistency: Two-Stage Clean Samples Identification for
Learning with Instance-Dependent Noisy Labels [87.48541631675889]
本稿では,2段階のクリーンサンプル識別手法を提案する。
まず,クリーンサンプルの早期同定にクラスレベルの特徴クラスタリング手法を用いる。
次に, 基底真理クラス境界に近い残余のクリーンサンプルについて, 一貫性に基づく新しい分類法を提案する。
論文 参考訳(メタデータ) (2022-07-29T04:54:57Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。
我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。
我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2021-12-02T13:09:12Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。