論文の概要: Calibrating Pre-trained Language Classifiers on LLM-generated Noisy Labels via Iterative Refinement
- arxiv url: http://arxiv.org/abs/2505.19675v1
- Date: Mon, 26 May 2025 08:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.28141
- Title: Calibrating Pre-trained Language Classifiers on LLM-generated Noisy Labels via Iterative Refinement
- Title(参考訳): 反復リファインメントによるLLM生成雑音ラベルに対する事前学習型言語分類器の校正
- Authors: Liqin Ye, Agam Shah, Chao Zhang, Sudheer Chava,
- Abstract要約: そこで我々はSiDyP: Simplex Label Diffusion with Dynamic Priorを提案する。
我々のフレームワークは、ゼロショットと少数ショットのLLM生成したノイズラベルデータセットをそれぞれ平均7.21%と7.30%で微調整したBERT分類器の性能を向上させることができる。
- 参考スコア(独自算出の注目度): 8.804897656598051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The traditional process of creating labeled datasets is labor-intensive and expensive. Recent breakthroughs in open-source large language models (LLMs) have opened up a new avenue in generating labeled datasets automatically for various natural language processing (NLP) tasks, providing an alternative to such an expensive annotation process. However, the reliability of such auto-generated labels remains a significant concern due to inherent inaccuracies. When learning from noisy labels, the model's generalization is likely to be harmed as it is prone to overfit to those label noises. While previous studies in learning from noisy labels mainly focus on synthetic noise and real-world noise, LLM-generated label noise receives less attention. In this paper, we propose SiDyP: Simplex Label Diffusion with Dynamic Prior to calibrate the classifier's prediction, thus enhancing its robustness towards LLM-generated noisy labels. SiDyP retrieves potential true label candidates by neighborhood label distribution in text embedding space and iteratively refines noisy candidates using a simplex diffusion model. Our framework can increase the performance of the BERT classifier fine-tuned on both zero-shot and few-shot LLM-generated noisy label datasets by an average of 7.21% and 7.30% respectively. We demonstrate the effectiveness of SiDyP by conducting extensive benchmarking for different LLMs over a variety of NLP tasks. Our code is available on Github.
- Abstract(参考訳): ラベル付きデータセットを作成する従来のプロセスは、労働集約的でコストがかかる。
オープンソースの大規模言語モデル(LLM)の最近のブレークスルーは、さまざまな自然言語処理(NLP)タスクのためにラベル付きデータセットを自動的に生成する新たな道を開いた。
しかし、そのような自動生成ラベルの信頼性は、本質的に不正確なため、重要な懸念事項である。
ノイズのあるラベルから学ぶと、それらのラベルのノイズに過度に適応する傾向があるため、モデルの一般化は害を受けやすい。
ノイズラベルの学習における従来の研究は主に合成ノイズと実世界の雑音に焦点を当てていたが、LLM生成ラベルノイズはあまり注目されなかった。
本稿では,SiDyP: Simplex Label Diffusion with Dynamic Prior を提案する。
SiDyPは、テキスト埋め込み空間における近傍ラベル分布による潜在的な真のラベル候補を検索し、単純な拡散モデルを用いてノイズの多い候補を反復的に洗練する。
我々のフレームワークは、ゼロショットと少数ショットのLLM生成したノイズラベルデータセットをそれぞれ平均7.21%と7.30%で微調整したBERT分類器の性能を向上させることができる。
我々は,様々なLPMに対して,様々なNLPタスクに対して広範囲なベンチマークを行い,SiDyPの有効性を実証する。
私たちのコードはGithubで入手可能です。
関連論文リスト
- Inaccurate Label Distribution Learning with Dependency Noise [52.08553913094809]
本稿では,依存雑音に基づく不正確なラベル分布学習(DN-ILDL)フレームワークを導入し,ラベル分布学習におけるノイズによる課題に対処する。
本稿では,DN-ILDLがILDL問題に効果的に対処し,既存のLCL法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T07:58:07Z) - Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning [8.387189407144403]
部分ラベル学習(Partial label learning、PLL)は、各トレーニングインスタンスが候補ラベル(Partial label)のセットとペアリングされる弱い教師付き学習パラダイムである。
NPLLはこの制約を緩和し、一部の部分ラベルが真のラベルを含まないようにし、問題の実用性を高める。
本稿では,近傍の重み付けアルゴリズムを用いて,雑音のある部分ラベルを利用して画像に擬似ラベルを割り当てる最小限のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-07T13:32:47Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - BadLabel: A Robust Perspective on Evaluating and Enhancing Label-noise
Learning [113.8799653759137]
我々はBadLabelと呼ばれる新しいラベルノイズタイプを導入し、既存のLNLアルゴリズムの性能を大幅に劣化させることができる。
BadLabelは、標準分類に対するラベルフライング攻撃に基づいて開発されている。
そこで本稿では, 各エポックにおいてラベルを逆向きに摂動させ, クリーンかつノイズの多いラベルの損失値を再び識別可能にする頑健なLNL法を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:26:23Z) - A Realistic Simulation Framework for Learning with Label Noise [17.14439597393087]
この枠組みは, ラベルノイズの重要な特徴を示す合成ノイズラベルを生成する。
また、ノイズの多いラベルで学習するための既存のアルゴリズムをベンチマークします。
本稿では、アノテータ機能を利用して雑音ラベルの予測と修正を行う新しい手法であるラベル品質モデル(LQM)を提案する。
論文 参考訳(メタデータ) (2021-07-23T18:53:53Z) - Extended T: Learning with Mixed Closed-set and Open-set Noisy Labels [86.5943044285146]
ラベルノイズ遷移行列$T$は、真のラベルがノイズのあるものへと反転する確率を反映する。
本稿では,閉集合と開集合の混在したラベル雑音下での学習に着目した。
本手法は,従来の最先端のラベル雑音学習法よりも頑健な性能を追求し,混合ラベル雑音をモデル化する。
論文 参考訳(メタデータ) (2020-12-02T02:42:45Z) - Label Noise Types and Their Effects on Deep Learning [0.0]
本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。
本稿では,特徴に依存したラベルノイズを生成する汎用フレームワークを提案する。
他の研究者がノイズの多いラベルでアルゴリズムをテストしやすいように、最も一般的に使用されているベンチマークデータセットに対して、破損したラベルを共有します。
論文 参考訳(メタデータ) (2020-03-23T18:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。