論文の概要: Hide and Seek in Noise Labels: Noise-Robust Collaborative Active Learning with LLM-Powered Assistance
- arxiv url: http://arxiv.org/abs/2504.02901v1
- Date: Thu, 03 Apr 2025 04:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:15.239482
- Title: Hide and Seek in Noise Labels: Noise-Robust Collaborative Active Learning with LLM-Powered Assistance
- Title(参考訳): 騒音ラベルの隠蔽と探究--LCMを活用したアクティブラーニング
- Authors: Bo Yuan, Yulin Chen, Yin Zhang, Wei Jiang,
- Abstract要約: ノイズラベル(LNL)からの学習は、収集されたトレーニングデータが誤ったラベルや破損したラベルを含むことができる多くの実世界のシナリオで発生する課題である。
既存のソリューションのほとんどは、ノイズの多いラベルを特定し、アクティブな学習を採用して、人間の専門家にノイズを問う。
本稿では,大規模な言語モデルと,雑音ラベルから学習するための小さなモデルを組み合わせた,能動的学習に基づく革新的な協調学習フレームワークであるNossalを提案する。
- 参考スコア(独自算出の注目度): 17.359530437698723
- License:
- Abstract: Learning from noisy labels (LNL) is a challenge that arises in many real-world scenarios where collected training data can contain incorrect or corrupted labels. Most existing solutions identify noisy labels and adopt active learning to query human experts on them for denoising. In the era of large language models (LLMs), although we can reduce the human effort to improve these methods, their performances are still subject to accurately separating the clean and noisy samples from noisy data. In this paper, we propose an innovative collaborative learning framework NoiseAL based on active learning to combine LLMs and small models (SMs) for learning from noisy labels. During collaborative training, we first adopt two SMs to form a co-prediction network and propose a dynamic-enhanced threshold strategy to divide the noisy data into different subsets, then select the clean and noisy samples from these subsets to feed the active annotator LLMs to rectify noisy samples. Finally, we employ different optimization objectives to conquer subsets with different degrees of label noises. Extensive experiments on synthetic and real-world noise datasets further demonstrate the superiority of our framework over state-of-the-art baselines.
- Abstract(参考訳): ノイズラベル(LNL)からの学習は、収集されたトレーニングデータが誤ったラベルや破損したラベルを含むことができる多くの実世界のシナリオで発生する課題である。
既存のソリューションのほとんどはノイズの多いラベルを識別し、アクティブな学習を採用して、人間の専門家にノイズを問う。
大規模言語モデル (LLM) の時代には, これらの手法を改善するための人的労力を削減できるが, クリーンでノイズの多いサンプルをノイズの多いデータから正確に分離する必要がある。
本稿では,LLMと小型モデル(SM)を組み合わせて,雑音ラベルから学習するための,能動的学習に基づく革新的な協調学習フレームワークであるNossalを提案する。
協調学習では,まず2つのSMを用いて共振ネットワークを構築し,ノイズデータを異なるサブセットに分割し,これらのサブセットからクリーンでノイズの多いサンプルを選択し,アクティブなアノテータLLMを供給し,ノイズの多いサンプルを修正するための動的しきい値戦略を提案する。
最後に、ラベルノイズの度合いが異なるサブセットを征服するために、異なる最適化目標を用いる。
合成および実世界のノイズデータセットに関する大規模な実験は、我々のフレームワークが最先端のベースラインよりも優れていることをさらに証明している。
関連論文リスト
- Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。
サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。
SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文 参考訳(メタデータ) (2025-01-19T14:41:55Z) - NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy
Labels [99.70895640578816]
雑音ラベル付きフェデレーション学習(F-LNL)は,協調型分散学習を通じて最適なサーバモデルを求めることを目的としている。
我々はF-LNLの課題に取り組むためにFedDivを提案し、特にフェデレートノイズフィルタと呼ばれるグローバルノイズフィルタを提案する。
論文 参考訳(メタデータ) (2023-12-19T15:46:47Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in
Natural Language Processing [26.678589684142548]
実世界の大規模なデータセットには、必然的にラベルノイズが伴う。
ディープモデルはノイズの多いラベルに徐々に適合し、一般化性能を低下させる。
ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)による学習は,より優れた一般化性能を実現するために設計されている。
論文 参考訳(メタデータ) (2023-05-18T05:01:04Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Multi-Objective Interpolation Training for Robustness to Label Noise [17.264550056296915]
標準教師付きコントラスト学習はラベル雑音の存在下で劣化することを示す。
コントラスト学習により学習したロバストな特徴表現を利用する新しいラベルノイズ検出手法を提案する。
合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2020-12-08T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。