論文の概要: Vision-Language Models are Strong Noisy Label Detectors
- arxiv url: http://arxiv.org/abs/2409.19696v1
- Date: Sun, 29 Sep 2024 12:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:13.610788
- Title: Vision-Language Models are Strong Noisy Label Detectors
- Title(参考訳): 強雑音ラベル検出器としての視覚言語モデル
- Authors: Tong Wei, Hao-Tian Li, Chun-Shu Li, Jiang-Xin Shi, Yu-Feng Li, Min-Ling Zhang,
- Abstract要約: 本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
- 参考スコア(独自算出の注目度): 76.07846780815794
- License:
- Abstract: Recent research on fine-tuning vision-language models has demonstrated impressive performance in various downstream tasks. However, the challenge of obtaining accurately labeled data in real-world applications poses a significant obstacle during the fine-tuning process. To address this challenge, this paper presents a Denoising Fine-Tuning framework, called DeFT, for adapting vision-language models. DeFT utilizes the robust alignment of textual and visual features pre-trained on millions of auxiliary image-text pairs to sieve out noisy labels. The proposed framework establishes a noisy label detector by learning positive and negative textual prompts for each class. The positive prompt seeks to reveal distinctive features of the class, while the negative prompt serves as a learnable threshold for separating clean and noisy samples. We employ parameter-efficient fine-tuning for the adaptation of a pre-trained visual encoder to promote its alignment with the learned textual prompts. As a general framework, DeFT can seamlessly fine-tune many pre-trained models to downstream tasks by utilizing carefully selected clean samples. Experimental results on seven synthetic and real-world noisy datasets validate the effectiveness of DeFT in both noisy label detection and image classification.
- Abstract(参考訳): 微調整型視覚言語モデルに関する最近の研究は、様々な下流タスクにおいて印象的な性能を示している。
しかし、実世界のアプリケーションで正確にラベル付けされたデータを得るという課題は、微調整の過程で大きな障害となる。
この課題に対処するために、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
提案フレームワークは,各クラスに対して正および負のテキストプロンプトを学習することにより,ノイズのあるラベル検出を行う。
正のプロンプトはクラスの特徴を明らかにしようとするが、負のプロンプトはクリーンでノイズの多いサンプルを分離するための学習可能なしきい値となる。
我々は、学習したテキストプロンプトとのアライメントを促進するために、事前学習されたビジュアルエンコーダの適応にパラメータ効率の微調整を用いる。
一般的なフレームワークとして、DeFTは慎重に選択されたクリーンサンプルを利用して、多くの事前訓練されたモデルを下流タスクにシームレスに微調整することができる。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
関連論文リスト
- Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? [41.56585313495218]
視覚言語モデルは、数発のプロンプトチューニングによって、新しい分類タスクに適応することができる。
本稿では,プロンプトチューニングパラダイムの堅牢性に寄与する主な理由について考察する。
ノイズの多いCLIPからのゼロショット予測は、独自のプロンプトをチューニングするために使用できることを示す。
論文 参考訳(メタデータ) (2023-07-22T04:20:30Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Dynamic Adaptive Threshold based Learning for Noisy Annotations Robust
Facial Expression Recognition [3.823356975862006]
ノイズの多いアノテーションを扱うための動的FER学習フレームワーク(DNFER)を提案する。
具体的には、DNFERは、選択されたクリーンサンプルを使用した教師ありトレーニングと、すべてのサンプルを使用した教師なし一貫性のあるトレーニングに基づいている。
我々は,RAFDB,FERPlus,SFEW,AffectNetなどの実雑音付きFERデータセットに対して,DNFERの堅牢性を示す。
論文 参考訳(メタデータ) (2022-08-22T12:02:41Z) - Context-based Virtual Adversarial Training for Text Classification with
Noisy Labels [1.9508698179748525]
本研究では,テキスト分類器が雑音ラベルに過度に収まらないよう,コンテキストベースの仮想対位訓練(ConVAT)を提案する。
従来の手法とは異なり,提案手法は入力よりも文脈レベルで逆学習を行う。
2種類のラベルノイズを持つ4つのテキスト分類データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-29T14:19:49Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Robustness of Accuracy Metric and its Inspirations in Learning with
Noisy Labels [51.66448070984615]
十分な数の雑音サンプルに対してトレーニング精度を最大化すると,ほぼ最適な分類器が得られることを示す。
検証のために、ノイズの多い検証セットが信頼できることを証明し、モデル選択のクリティカルな要求に対処する。
理論結果に動機づけられて,ノイズラベルをトレーニングしたモデルの特徴付けを行い,ノイズ検証セットの有用性を検証する。
論文 参考訳(メタデータ) (2020-12-08T03:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。