Fugu-MT 論文翻訳(概要): Chef: a cheap and fast pipeline for iteratively cleaning label uncertainties

論文の概要: Chef: a cheap and fast pipeline for iteratively cleaning label uncertainties

arxiv url: http://arxiv.org/abs/2107.08588v1
Date: Mon, 19 Jul 2021 02:42:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-20 14:38:22.328999
Title: Chef: a cheap and fast pipeline for iteratively cleaning label uncertainties
Title（参考訳）: Chef: ラベルの不確実性を反復的にクリーニングするための安価で高速なパイプライン
Authors: Yinjun Wu, James Weimer, Susan B. Davidson
Abstract要約: 本稿では,Chef (CHEap and Fast label cleaning) と呼ばれる,以下の3つのコンポーネントからなるソリューションを提案する。まず、人間のアノテータのコストを削減するために、最も影響力のあるトレーニングサンプルを優先し、1人のアノテータのコストを削減するためにクリーンラベルを提供するInflを使用します。第二に、サンプルセレクタフェーズとモデルコンストラクタフェーズを高速化するために、イントレム-Inflをインクリメンタルに生成し、DeltaGrad-Lをインクリメンタルにモデルを更新します。第3に、一般的なラベルのクリーニングパイプラインを再設計し、人間のアノテータがより小さなサンプルを反復的にクリーニングできるようにします。
参考スコア（独自算出の注目度）: 9.808062465919825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-quality labels are expensive to obtain for many machine learning tasks, such as medical image classification tasks. Therefore, probabilistic (weak) labels produced by weak supervision tools are used to seed a process in which influential samples with weak labels are identified and cleaned by several human annotators to improve the model performance. To lower the overall cost and computational overhead of this process, we propose a solution called Chef(CHEap and Fast label cleaning), which consists of the following three components. First, to reduce the cost of human annotators, we use Infl, which prioritizes the most influential training samples for cleaning and provides cleaned labels to save the cost of one human annotator. Second, to accelerate the sample selector phase and the model constructor phase, we use Increm-Infl to incrementally produce influential samples, and DeltaGrad-L to incrementally update the model. Third, we redesign the typical label cleaning pipeline so that human annotators iteratively clean smaller batch of samples rather than one big batch of samples. This yields better over all model performance and enables possible early termination when the expected model performance has been achieved. Extensive experiments show that our approach gives good model prediction performance while achieving significant speed-ups.
Abstract（参考訳）: 高品質なラベルは、医用画像分類タスクなど、多くの機械学習タスクで取得するには高価である。したがって、弱い監視ツールによって生成された確率的(弱く)ラベルを用いて、弱いラベルを持つ影響力のあるサンプルを複数の人間の注釈者によって識別・浄化し、モデル性能を向上させるプロセスをシードする。このプロセス全体のコストと計算オーバーヘッドを低減するため、chef(cheap and fast label cleaning)と呼ばれるソリューションを提案し、以下の3つのコンポーネントからなる。まず,人間のアノテータのコストを削減するために,最も影響力のあるトレーニングサンプルを優先するinflを使用し,1人のアノテータのコストを削減するためにラベルをクリーニングする。第二に、サンプルセレクタフェーズとモデルコンストラクタフェーズを高速化するために、イントレム-Inflをインクリメンタルに生成し、DeltaGrad-Lをインクリメンタルにモデルを更新します。第三に、一般的なラベルのクリーニングパイプラインを再設計し、人間のアノテータが1つの大きなサンプルではなく、小さなサンプルを反復的にクリーニングできるようにします。これにより、すべてのモデルパフォーマンスが向上し、期待されるモデルパフォーマンスが達成された時点での早期終了が可能になる。広範な実験により,本手法は大きなスピードアップを達成しつつ,優れたモデル予測性能をもたらすことが示された。

関連論文リスト

Exploiting the Potential Supervision Information of Clean Samples in Partial Label Learning [8.969478423832188]
クリーンなサンプルを収集してガイダンスを提供し、最も可能性の高い候補の信頼性を高めることができることを示す。各クリーンサンプルに対して、そのラベルが表現空間において最も近い隣人の候補の1つであるなら、その隣人の基本的な真実である可能性が高いという仮定の下で、最も信頼性の高い候補を高く評価する。
論文参考訳（メタデータ） (2025-05-14T13:04:55Z)
Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection [83.90563802153707]
PLUSNetは高品質のSmallオブジェクト検出フレームワークである。上流の特徴を浄化するための階層的特徴(HFP)フレームワーク、中流トレーニングサンプルの品質を改善するための多重基準ラベル割り当て(MCLA)、下流タスクを達成するためにより効果的に情報を活用するための周波数分離ヘッド(FDHead)の3つのコンポーネントで構成されている。
論文参考訳（メタデータ） (2025-04-29T10:11:03Z)
Effortless Active Labeling for Long-Term Test-Time Adaptation [18.02130603595324]
長期的なテストタイムの適応は、エラーの蓄積による難しい作業である。最近のアプローチでは、各バッチに少数のサンプルを積極的にラベル付けすることでこの問題に対処している。本稿では,各バッチにおけるアノテーションに対して,最大1つのサンプルが選択されるように,無駄なアクティブラベリングを実現する方法について検討する。
論文参考訳（メタデータ） (2025-03-18T07:49:27Z)
Enhancing Sample Selection by Cutting Mislabeled Easy Examples [62.13094877228772]
トレーニングプロセスの初期段階において,モデルによって正しく予測された誤ラベル例は,特にモデル性能に有害であることを示す。モデルの後続のトレーニング状態を利用して,早期に同定された自信あるサブセットを再選択するアーリーカットを提案する。
論文参考訳（メタデータ） (2025-02-12T09:12:45Z)
Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning [28.334359021165525]
事前トレーニングの後、高品質なサンプルであっても、タスク関連のないパターンやフレーズは冗長あるいは非形式的である可能性がある。本稿では,ノイズ-ラベルの観点からトークンの品質を調査し,SFTタスクのための汎用的なトークンクリーニングパイプラインを提案する。私たちのフレームワークは、複数のダウンストリームタスクのパフォーマンスを継続的に改善します。
論文参考訳（メタデータ） (2025-02-04T03:26:58Z)
One-step Noisy Label Mitigation [86.57572253460125]
ノイズラベルのトレーニング過程に対する有害な影響の軽減がますます重要になっている。モデルに依存しないノイズラベル緩和パラダイムである1ステップアンチノイズ(OSA)を提案する。我々はOSAの優位性を実証的に実証し、トレーニングの堅牢性の向上、タスク転送性の向上、デプロイメントの容易性、計算コストの削減を強調した。
論文参考訳（メタデータ） (2024-10-02T18:42:56Z)
Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文参考訳（メタデータ） (2024-07-03T03:10:24Z)
Jump-teaching: Ultra Efficient and Robust Learning with Noisy Label [6.818488262543482]
そこで本研究では,トレーニング中のラベルのずれを識別する新しい手法を提案する。インタープレイを分離し、損失からより多くのセマンティック情報をマイニングするために、ジャンプ方式の更新を行うネットワークは1つだけです。提案手法は, ピークメモリフットプリントの高速化, ピークメモリフットプリントの0.56タイム, 各種ノイズ設定による最先端処理よりも優れたロバスト性を実現する。
論文参考訳（メタデータ） (2024-05-27T12:54:09Z)
Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文参考訳（メタデータ） (2024-05-23T17:17:27Z)
Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文参考訳（メタデータ） (2024-04-10T07:34:37Z)
Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。本稿では,生成モデルの観点からラベルノイズ問題を再構成する。我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文参考訳（メタデータ） (2023-05-31T03:01:36Z)
Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文参考訳（メタデータ） (2022-03-21T10:20:21Z)
Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文参考訳（メタデータ） (2021-12-10T18:59:06Z)
Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文参考訳（メタデータ） (2021-12-02T13:09:12Z)
Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。本手法では,クラス毎に20～30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文参考訳（メタデータ） (2020-06-27T08:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。