論文の概要: Chef: a cheap and fast pipeline for iteratively cleaning label
uncertainties
- arxiv url: http://arxiv.org/abs/2107.08588v1
- Date: Mon, 19 Jul 2021 02:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:38:22.328999
- Title: Chef: a cheap and fast pipeline for iteratively cleaning label
uncertainties
- Title(参考訳): Chef: ラベルの不確実性を反復的にクリーニングするための安価で高速なパイプライン
- Authors: Yinjun Wu, James Weimer, Susan B. Davidson
- Abstract要約: 本稿では,Chef (CHEap and Fast label cleaning) と呼ばれる,以下の3つのコンポーネントからなるソリューションを提案する。
まず、人間のアノテータのコストを削減するために、最も影響力のあるトレーニングサンプルを優先し、1人のアノテータのコストを削減するためにクリーンラベルを提供するInflを使用します。
第二に、サンプルセレクタフェーズとモデルコンストラクタフェーズを高速化するために、イントレム-Inflをインクリメンタルに生成し、DeltaGrad-Lをインクリメンタルにモデルを更新します。
第3に、一般的なラベルのクリーニングパイプラインを再設計し、人間のアノテータがより小さなサンプルを反復的にクリーニングできるようにします。
- 参考スコア(独自算出の注目度): 9.808062465919825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality labels are expensive to obtain for many machine learning tasks,
such as medical image classification tasks. Therefore, probabilistic (weak)
labels produced by weak supervision tools are used to seed a process in which
influential samples with weak labels are identified and cleaned by several
human annotators to improve the model performance. To lower the overall cost
and computational overhead of this process, we propose a solution called
Chef(CHEap and Fast label cleaning), which consists of the following three
components. First, to reduce the cost of human annotators, we use Infl, which
prioritizes the most influential training samples for cleaning and provides
cleaned labels to save the cost of one human annotator. Second, to accelerate
the sample selector phase and the model constructor phase, we use Increm-Infl
to incrementally produce influential samples, and DeltaGrad-L to incrementally
update the model. Third, we redesign the typical label cleaning pipeline so
that human annotators iteratively clean smaller batch of samples rather than
one big batch of samples. This yields better over all model performance and
enables possible early termination when the expected model performance has been
achieved. Extensive experiments show that our approach gives good model
prediction performance while achieving significant speed-ups.
- Abstract(参考訳): 高品質なラベルは、医用画像分類タスクなど、多くの機械学習タスクで取得するには高価である。
したがって、弱い監視ツールによって生成された確率的(弱く)ラベルを用いて、弱いラベルを持つ影響力のあるサンプルを複数の人間の注釈者によって識別・浄化し、モデル性能を向上させるプロセスをシードする。
このプロセス全体のコストと計算オーバーヘッドを低減するため、chef(cheap and fast label cleaning)と呼ばれるソリューションを提案し、以下の3つのコンポーネントからなる。
まず,人間のアノテータのコストを削減するために,最も影響力のあるトレーニングサンプルを優先するinflを使用し,1人のアノテータのコストを削減するためにラベルをクリーニングする。
第二に、サンプルセレクタフェーズとモデルコンストラクタフェーズを高速化するために、イントレム-Inflをインクリメンタルに生成し、DeltaGrad-Lをインクリメンタルにモデルを更新します。
第三に、一般的なラベルのクリーニングパイプラインを再設計し、人間のアノテータが1つの大きなサンプルではなく、小さなサンプルを反復的にクリーニングできるようにします。
これにより、すべてのモデルパフォーマンスが向上し、期待されるモデルパフォーマンスが達成された時点での早期終了が可能になる。
広範な実験により,本手法は大きなスピードアップを達成しつつ,優れたモデル予測性能をもたらすことが示された。
関連論文リスト
- One-step Noisy Label Mitigation [86.57572253460125]
ノイズラベルのトレーニング過程に対する有害な影響の軽減がますます重要になっている。
モデルに依存しないノイズラベル緩和パラダイムである1ステップアンチノイズ(OSA)を提案する。
我々はOSAの優位性を実証的に実証し、トレーニングの堅牢性の向上、タスク転送性の向上、デプロイメントの容易性、計算コストの削減を強調した。
論文 参考訳(メタデータ) (2024-10-02T18:42:56Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Jump-teaching: Ultra Efficient and Robust Learning with Noisy Label [6.818488262543482]
そこで本研究では,トレーニング中のラベルのずれを識別する新しい手法を提案する。
インタープレイを分離し、損失からより多くのセマンティック情報をマイニングするために、ジャンプ方式の更新を行うネットワークは1つだけです。
提案手法は, ピークメモリフットプリントの高速化, ピークメモリフットプリントの0.56タイム, 各種ノイズ設定による最先端処理よりも優れたロバスト性を実現する。
論文 参考訳(メタデータ) (2024-05-27T12:54:09Z) - Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。
我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。
我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2021-12-02T13:09:12Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。