論文の概要: Impact of Noisy Supervision in Foundation Model Learning
- arxiv url: http://arxiv.org/abs/2403.06869v2
- Date: Fri, 14 Mar 2025 22:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:58:23.720134
- Title: Impact of Noisy Supervision in Foundation Model Learning
- Title(参考訳): 基礎モデル学習におけるノイズスーパービジョンの影響
- Authors: Hao Chen, Zihan Wang, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama, Bhiksha Raj, Jindong Wang,
- Abstract要約: 本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
- 参考スコア(独自算出の注目度): 91.56591923244943
- License:
- Abstract: Foundation models are usually pre-trained on large-scale datasets and then adapted to downstream tasks through tuning. However, the large-scale pre-training datasets, often inaccessible or too expensive to handle, can contain label noise that may adversely affect the generalization of the model and pose unexpected risks. This paper stands out as the first work to comprehensively understand and analyze the nature of noise in pre-training datasets and then effectively mitigate its impacts on downstream tasks. Specifically, through extensive experiments of fully-supervised and image-text contrastive pre-training on synthetic noisy ImageNet-1K, YFCC15M, and CC12M datasets, we demonstrate that, while slight noise in pre-training can benefit in-domain (ID) performance, where the training and testing data share a similar distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing distributions are significantly different. These observations are agnostic to scales of pre-training datasets, pre-training noise types, model architectures, pre-training objectives, downstream tuning methods, and downstream applications. We empirically ascertain that the reason behind this is that the pre-training noise shapes the feature space differently. We then propose a tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization, which is applicable in both parameter-efficient and black-box tuning manners. We additionally conduct extensive experiments on popular vision and language models, including APIs, which are supervised and self-supervised pre-trained on realistic noisy data for evaluation. Our analysis and results demonstrate the importance of this novel and fundamental research direction, which we term as Noisy Model Learning.
- Abstract(参考訳): ファンデーションモデルは、通常、大規模なデータセットで事前トレーニングされ、チューニングを通じて下流タスクに適応する。
しかし、大規模な事前学習データセットは、しばしばアクセス不能または処理に高すぎるため、ラベルノイズを含むことができ、それはモデルの一般化に悪影響を及ぼし、予期せぬリスクを引き起こす可能性がある。
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析し、下流タスクへの影響を効果的に緩和する最初の試みである。
具体的には、画像Net-1K, YFCC15M, CC12Mデータセットの完全教師付きおよび画像テキストによるコントラスト事前学習実験により、事前学習のわずかなノイズはドメイン内(ID)のパフォーマンスに寄与するが、トレーニングデータとテストデータが同様の分布を共有している場合、トレーニングとテストデータが異なる領域(OOD)性能を常に劣化させることを示した。
これらの観測は、事前トレーニングデータセットのスケール、事前トレーニングノイズタイプ、モデルアーキテクチャ、事前トレーニング目標、下流チューニング方法、ダウンストリームアプリケーションに非依存である。
この背景にある理由は、事前学習されたノイズが特徴空間を異なる形にしているからである。
そこで我々は,騒音の悪影響を緩和し,パラメータ効率とブラックボックス調律の両方に適用可能な一般化を改善するため,特徴空間に適応するチューニング法(NMTune)を提案する。
また,現実的な雑音データに基づいて教師付き,自己教師付きで事前訓練されたAPIを含む,一般的な視覚と言語モデルに関する広範な実験を実施して評価する。
本研究は,ノイズモデル学習(Noisy Model Learning)と呼ばれる,この新奇かつ基礎研究の方向性の重要性を実証するものである。
関連論文リスト
- Do we really have to filter out random noise in pre-training data for language models? [42.966566701950164]
インターネットから収集された事前学習されたテキストデータは、必然的にデコードエラーや規制されていないウェブコンテンツに起因するランダムノイズを含む。
この現象を理論的に正当化し、多言語モデルの成功を解明する。
実験により、下流タスクにおけるモデルの性能はNTP損失のみに基づくものではなく、ランダムノイズが下流タスクのパフォーマンスを劣化させる可能性があることが示された。
本稿では,下流タスクヘッドの復調能力を明確に向上させる,新しいプラグアンドプレイ型局所勾配整合損失を提案する。
論文 参考訳(メタデータ) (2025-02-10T16:01:55Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。