論文の概要: DyGen: Learning from Noisy Labels via Dynamics-Enhanced Generative
Modeling
- arxiv url: http://arxiv.org/abs/2305.19395v2
- Date: Tue, 13 Jun 2023 05:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:56:48.223769
- Title: DyGen: Learning from Noisy Labels via Dynamics-Enhanced Generative
Modeling
- Title(参考訳): DyGen: ダイナミクス強化ジェネレーティブモデリングによるノイズラベルからの学習
- Authors: Yuchen Zhuang, Yue Yu, Lingkai Kong, Xiang Chen, Chao Zhang
- Abstract要約: ノイズの多いラベルを持つ微調整言語モデルでは、モデルがラベルノイズに容易に適合し、性能が低下する。
ノイズラベルから学習するほとんどの既存の方法は、静的入力機能を使ってノイズを除去する。
埋め込み空間における動的パターンを用いて雑音ラベル予測を改善するDynamics-Enhanced Generative Model (DyGen)を提案する。
- 参考スコア(独自算出の注目度): 15.773948716619728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from noisy labels is a challenge that arises in many real-world
applications where training data can contain incorrect or corrupted labels.
When fine-tuning language models with noisy labels, models can easily overfit
the label noise, leading to decreased performance. Most existing methods for
learning from noisy labels use static input features for denoising, but these
methods are limited by the information they can provide on true label
distributions and can result in biased or incorrect predictions. In this work,
we propose the Dynamics-Enhanced Generative Model (DyGen), which uses dynamic
patterns in the embedding space during the fine-tuning process of language
models to improve noisy label predictions. DyGen uses the variational
auto-encoding framework to infer the posterior distributions of true labels
from noisy labels and training dynamics. Additionally, a co-regularization
mechanism is used to minimize the impact of potentially noisy labels and
priors. DyGen demonstrates an average accuracy improvement of 3.10% on two
synthetic noise datasets and 1.48% on three real-world noise datasets compared
to the previous state-of-the-art. Extensive experiments and analyses show the
effectiveness of each component in DyGen. Our code is available for
reproducibility on GitHub.
- Abstract(参考訳): ノイズの多いラベルからの学習は、トレーニングデータが誤ったラベルや破損したラベルを含むことができる多くの現実世界アプリケーションで発生する課題である。
ノイズラベルを持つ言語モデルの微調整を行うと、モデルがラベルノイズをオーバーフィットし、パフォーマンスが低下する。
ノイズの多いラベルから学習するほとんどの方法は静的な入力機能を使ってノイズを識別するが、これらの方法は真のラベル分布で提供できる情報によって制限され、バイアスや誤った予測をもたらす可能性がある。
本研究では,言語モデルの微調整過程における埋め込み空間の動的パターンを用いて雑音ラベル予測を改善するDynamics-Enhanced Generative Model (DyGen)を提案する。
DyGenは変分自動エンコーディングフレームワークを使用して、ノイズラベルとトレーニングダイナミクスから真のラベルの後方分布を推測する。
さらに、潜在的に騒がしいラベルやプリエントの影響を最小限に抑えるために、共レギュライゼーション機構が使用される。
DyGenは2つの合成ノイズデータセットの平均精度を3.10%改善し、3つの実世界のノイズデータセットで1.48%改善した。
大規模な実験と分析は、DyGenの各コンポーネントの有効性を示している。
私たちのコードはgithubで再現可能です。
関連論文リスト
- Learning under Label Noise through Few-Shot Human-in-the-Loop Refinement [37.4838454216137]
FHLR(Few-Shot Human-in-the-Loop Refinement)は、雑音ラベル学習のための新しいソリューションである。
雑音ラベルから学習するとFHLRの性能が著しく向上することを示す。
我々の研究は、ハイテイクなヘルスセンシングベンチマークでより良い一般化を達成するだけでなく、ノイズが一般的に使われているモデルにどのように影響するかにも光を当てています。
論文 参考訳(メタデータ) (2024-01-25T11:43:35Z) - ERASE: Error-Resilient Representation Learning on Graphs for Label Noise
Tolerance [53.73316938815873]
本稿では, ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE) という手法を提案する。
ERASEは、プロトタイプの擬似ラベルとプロパゲーションされた識別ラベルを組み合わせて、表現をエラーレジリエンスで更新する。
提案手法は, 広い雑音レベルにおいて, 複数のベースラインをクリアマージンで上回り, 高いスケーラビリティを享受できる。
論文 参考訳(メタデータ) (2023-12-13T17:59:07Z) - Generating the Ground Truth: Synthetic Data for Label Noise Research [0.0]
ラベルノイズ研究では、通常ノイズまたは複雑なシミュレーションデータのいずれかがベースラインとして受け入れられる。
上記の方法論を改善することを目的としたフレームワークであるSynLABELを提案する。
実際のデータから通知されるノイズのないデータセットを作成することができる。
論文 参考訳(メタデータ) (2023-09-08T13:31:06Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Noisy Labels Can Induce Good Representations [53.47668632785373]
アーキテクチャがノイズラベルによる学習に与える影響について検討する。
ノイズラベルを用いたトレーニングは,モデルが一般化に乏しい場合でも,有用な隠れ表現を誘導できることを示す。
この発見は、騒々しいラベルで訓練されたモデルを改善する簡単な方法につながります。
論文 参考訳(メタデータ) (2020-12-23T18:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。