論文の概要: Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?
- arxiv url: http://arxiv.org/abs/2307.11978v1
- Date: Sat, 22 Jul 2023 04:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:38:24.419152
- Title: Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?
- Title(参考訳): なぜ、視覚言語モデルのプロンプトチューニングはノイズの多いラベルに堅牢なのか?
- Authors: Cheng-En Wu, Yu Tian, Haichao Yu, Heng Wang, Pedro Morgado, Yu Hen Hu,
Linjie Yang
- Abstract要約: 視覚言語モデルは、数発のプロンプトチューニングによって、新しい分類タスクに適応することができる。
本稿では,プロンプトチューニングパラダイムの堅牢性に寄与する主な理由について考察する。
ノイズの多いCLIPからのゼロショット予測は、独自のプロンプトをチューニングするために使用できることを示す。
- 参考スコア(独自算出の注目度): 41.56585313495218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as CLIP learn a generic text-image embedding from
large-scale training data. A vision-language model can be adapted to a new
classification task through few-shot prompt tuning. We find that such a prompt
tuning process is highly robust to label noises. This intrigues us to study the
key reasons contributing to the robustness of the prompt tuning paradigm. We
conducted extensive experiments to explore this property and find the key
factors are: 1) the fixed classname tokens provide a strong regularization to
the optimization of the model, reducing gradients induced by the noisy samples;
2) the powerful pre-trained image-text embedding that is learned from diverse
and generic web data provides strong prior knowledge for image classification.
Further, we demonstrate that noisy zero-shot predictions from CLIP can be used
to tune its own prompt, significantly enhancing prediction accuracy in the
unsupervised setting. The code is available at https://github.com/CEWu/PTNL.
- Abstract(参考訳): CLIPのようなビジョン言語モデルは、大規模なトレーニングデータから一般的なテキストイメージの埋め込みを学ぶ。
視覚言語モデルは、数発のプロンプトチューニングによって、新しい分類タスクに適応することができる。
このような迅速なチューニングプロセスは、ラベルノイズに対して非常に堅牢である。
このことが、プロンプトチューニングパラダイムの堅牢性に寄与する重要な理由を研究するきっかけになります。
我々は、この特性を探索し、重要な要素を見つけるために、広範な実験を行った。
1)固定クラス名トークンは、モデル最適化に強い正則化を提供し、ノイズサンプルによる勾配を減少させる。
2) 多様な汎用Webデータから学習した強力な事前学習済み画像テキスト埋め込みは,画像分類に強い事前知識を提供する。
さらに,CLIPのノイズゼロショット予測を用いてプロンプトを調整し,教師なし環境での予測精度を大幅に向上させることができることを示した。
コードはhttps://github.com/cewu/ptnlで入手できる。
関連論文リスト
- GCI-ViTAL: Gradual Confidence Improvement with Vision Transformers for Active Learning on Label Noise [1.603727941931813]
本研究では,CIFAR10,CIFAR100,Food101,Chest X線データセットのAL手法を比較し,画像分類タスクに焦点を当てた。
本稿では,ノイズのラベル付けに頑健な新しいディープラーニングアルゴリズムGCI-ViTALを提案する。
論文 参考訳(メタデータ) (2024-11-08T19:59:40Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。