論文の概要: NLPrompt: Noise-Label Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.01256v2
- Date: Wed, 26 Mar 2025 09:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:39.754353
- Title: NLPrompt: Noise-Label Prompt Learning for Vision-Language Models
- Title(参考訳): NLPrompt:視覚言語モデルのためのノイズラベルプロンプト学習
- Authors: Bikang Pan, Qun Li, Xiaoying Tang, Wei Huang, Zhen Fang, Feng Liu, Jingya Wang, Jingyi Yu, Ye Shi,
- Abstract要約: 実世界のデータセットは、しばしば、迅速な学習性能を劣化させるうるノイズの多いラベルを含んでいる。
本稿では,PromptMAEという名前の学習における平均絶対誤差(MAE)損失を用いることで,雑音ラベルに対するロバスト性を著しく向上することを示す。
また,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
- 参考スコア(独自算出の注目度): 45.35555264802591
- License:
- Abstract: The emergence of vision-language foundation models, such as CLIP, has revolutionized image-text representation, enabling a broad range of applications via prompt learning. Despite its promise, real-world datasets often contain noisy labels that can degrade prompt learning performance. In this paper, we demonstrate that using mean absolute error (MAE) loss in prompt learning, named PromptMAE, significantly enhances robustness against noisy labels while maintaining high accuracy. Though MAE is straightforward and recognized for its robustness, it is rarely used in noisy-label learning due to its slow convergence and poor performance outside prompt learning scenarios. To elucidate the robustness of PromptMAE, we leverage feature learning theory to show that MAE can suppress the influence of noisy samples, thereby improving the signal-to-noise ratio and enhancing overall robustness. Additionally, we introduce PromptOT, a prompt-based optimal transport data purification method to enhance the robustness further. PromptOT employs text features in vision-language models as prototypes to construct an optimal transportation matrix. This matrix effectively partitions datasets into clean and noisy subsets, allowing for the application of cross-entropy loss to the clean subset and MAE loss to the noisy subset. Our Noise-Label Prompt Learning method, named NLPrompt, offers a simple and efficient approach that leverages the expressive representations and precise alignment capabilities of vision-language models for robust prompt learning. We validate NLPrompt through extensive experiments across various noise settings, demonstrating significant performance improvements.
- Abstract(参考訳): CLIPのようなビジョン言語基盤モデルの出現は、画像テキスト表現に革命をもたらし、迅速な学習を通じて幅広いアプリケーションを可能にする。
その約束にもかかわらず、現実世界のデータセットには、迅速な学習性能を劣化させるうるノイズの多いラベルが含まれていることが多い。
本稿では,PromptMAEと命名された学習における平均絶対誤差(MAE)損失を用いることで,ノイズラベルに対するロバスト性が向上し,精度が向上することを示す。
MAEは、その頑健さは単純で認識されているが、緩やかに収束し、迅速な学習シナリオ以外では性能が劣るため、ノイズの多いラベル学習ではほとんど使われない。
PromptMAEのロバスト性を解明するために、特徴学習理論を活用し、MAEがノイズサンプルの影響を抑え、信号対雑音比を改善し、全体的なロバスト性を高めることができることを示す。
さらに,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
PromptOTは、最適な輸送行列を構築するためのプロトタイプとして、視覚言語モデルにテキスト機能を採用している。
このマトリックスは、データセットをクリーンでノイズの多いサブセットに効果的に分割し、クリーンなサブセットにクロスエントロピーロスを適用し、ノイズのあるサブセットにMAEロスを適用できるようにする。
NLPromptと名付けられた我々のノイズラベル・プロンプト学習法は、視覚言語モデルの表現表現と正確なアライメント機能を活用して、堅牢な素早い学習を実現するためのシンプルで効率的なアプローチを提供する。
我々はNLPromptを様々なノイズ設定の広範な実験により検証し、大幅な性能向上を示した。
関連論文リスト
- Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Evaluating the Robustness of Discrete Prompts [27.919548466481583]
我々は離散的なプロンプトの堅牢性について体系的な研究を行う。
2つの自然言語推論(NLI)データセットでそれらの性能を測定する。
提案手法は,NLI入力に対する摂動に対して比較的頑健であるが,シャッフルやプロンプトの削除といった他の種類の摂動に対して非常に敏感である。
論文 参考訳(メタデータ) (2023-02-11T07:01:53Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Towards Harnessing Feature Embedding for Robust Learning with Noisy
Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。
ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文 参考訳(メタデータ) (2022-06-27T02:45:09Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。