論文の概要: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- arxiv url: http://arxiv.org/abs/2510.10208v1
- Date: Sat, 11 Oct 2025 13:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.843029
- Title: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- Title(参考訳): Weed Out, Then Harvest: Dual Low-Rank Adaptation is a Effective Noisy Label Detector for Noise-Robust Learning (特集:環境工学)
- Authors: Bo Yuan, Yulin Chen, Yin Zhang,
- Abstract要約: Deloraはモデルトレーニングからサンプル選択を分離するフレームワークである。
サンプル選択のために、Deloraはクリーンでノイズの多いLoRAを導入してノイズの多いラベル検出器を確立する。
モデルトレーニングでは、慎重に選択されたサンプルを使用して、言語モデルをシームレスに微調整することができる。
- 参考スコア(独自算出の注目度): 20.821727062417466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
- Abstract(参考訳): パラメータ効率細調整(PEFT)大言語モデル(LLM)は、様々な下流タスクにおいて顕著な性能を示した。
しかし、多くの実世界のシナリオでは、収集されたトレーニングデータは必然的にノイズの多いラベルを含んでいる。
ノイズの多いラベルから学ぶために、ほとんどのソリューションはモデルトレーニングの損失が少ないサンプルを選択する。
しかし、選択されたサンプルは次のイテレーションで損失計算に影響を与える。
不正確な初期選択は悪循環を生じさせ、準最適性能をもたらす。
このサイクルを断ち切るために、モデルトレーニングからサンプル選択を分離する新しいフレームワークであるDeloraを提案する。
サンプル選択のために、Deloraはクリーンでノイズの多いLoRAを導入してノイズの多いラベル検出器を確立する。
記憶効果により、クリーンなLoRAはクリーンなデータを記憶するよう奨励され、ノイズの多いLoRAは、クリーンでノイズの多いサンプルを選択するための学習可能なしきい値となる不正なラベル付きデータを記憶するよう制約される。
モデルトレーニングでは、慎重に選択されたサンプルを使用して、言語モデルをシームレスに微調整することができる。
合成および実世界の雑音データを用いた実験結果から,Deloraのノイズラベル検出およびテキスト分類における有効性が確認された。
関連論文リスト
- Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。
サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。
SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文 参考訳(メタデータ) (2025-01-19T14:41:55Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Instance-dependent Noisy-label Learning with Graphical Model Based Noise-rate Estimation [16.283722126438125]
ラベルノイズ学習(LNL)は、クリーンでノイズの多いラベルサンプルを区別するためにサンプル選択段階を組み込む。
このようなカリキュラムは、トレーニングセットの実際のラベルノイズ率を考慮していないため、準最適である。
本稿では,ほとんどのSOTA (State-of-the-art) LNL法と容易に統合できる新しいノイズレート推定法を用いて,この問題に対処する。
論文 参考訳(メタデータ) (2023-05-31T01:46:14Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。