論文の概要: NLPrompt: Noise-Label Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.01256v2
- Date: Wed, 26 Mar 2025 09:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 14:57:01.060101
- Title: NLPrompt: Noise-Label Prompt Learning for Vision-Language Models
- Title(参考訳): NLPrompt:視覚言語モデルのためのノイズラベルプロンプト学習
- Authors: Bikang Pan, Qun Li, Xiaoying Tang, Wei Huang, Zhen Fang, Feng Liu, Jingya Wang, Jingyi Yu, Ye Shi,
- Abstract要約: 実世界のデータセットは、しばしば、迅速な学習性能を劣化させるうるノイズの多いラベルを含んでいる。
本稿では,PromptMAEという名前の学習における平均絶対誤差(MAE)損失を用いることで,雑音ラベルに対するロバスト性を著しく向上することを示す。
また,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
- 参考スコア(独自算出の注目度): 45.35555264802591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of vision-language foundation models, such as CLIP, has revolutionized image-text representation, enabling a broad range of applications via prompt learning. Despite its promise, real-world datasets often contain noisy labels that can degrade prompt learning performance. In this paper, we demonstrate that using mean absolute error (MAE) loss in prompt learning, named PromptMAE, significantly enhances robustness against noisy labels while maintaining high accuracy. Though MAE is straightforward and recognized for its robustness, it is rarely used in noisy-label learning due to its slow convergence and poor performance outside prompt learning scenarios. To elucidate the robustness of PromptMAE, we leverage feature learning theory to show that MAE can suppress the influence of noisy samples, thereby improving the signal-to-noise ratio and enhancing overall robustness. Additionally, we introduce PromptOT, a prompt-based optimal transport data purification method to enhance the robustness further. PromptOT employs text features in vision-language models as prototypes to construct an optimal transportation matrix. This matrix effectively partitions datasets into clean and noisy subsets, allowing for the application of cross-entropy loss to the clean subset and MAE loss to the noisy subset. Our Noise-Label Prompt Learning method, named NLPrompt, offers a simple and efficient approach that leverages the expressive representations and precise alignment capabilities of vision-language models for robust prompt learning. We validate NLPrompt through extensive experiments across various noise settings, demonstrating significant performance improvements.
- Abstract(参考訳): CLIPのようなビジョン言語基盤モデルの出現は、画像テキスト表現に革命をもたらし、迅速な学習を通じて幅広いアプリケーションを可能にする。
その約束にもかかわらず、現実世界のデータセットには、迅速な学習性能を劣化させるうるノイズの多いラベルが含まれていることが多い。
本稿では,PromptMAEと命名された学習における平均絶対誤差(MAE)損失を用いることで,ノイズラベルに対するロバスト性が向上し,精度が向上することを示す。
MAEは、その頑健さは単純で認識されているが、緩やかに収束し、迅速な学習シナリオ以外では性能が劣るため、ノイズの多いラベル学習ではほとんど使われない。
PromptMAEのロバスト性を解明するために、特徴学習理論を活用し、MAEがノイズサンプルの影響を抑え、信号対雑音比を改善し、全体的なロバスト性を高めることができることを示す。
さらに,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
PromptOTは、最適な輸送行列を構築するためのプロトタイプとして、視覚言語モデルにテキスト機能を採用している。
このマトリックスは、データセットをクリーンでノイズの多いサブセットに効果的に分割し、クリーンなサブセットにクロスエントロピーロスを適用し、ノイズのあるサブセットにMAEロスを適用できるようにする。
NLPromptと名付けられた我々のノイズラベル・プロンプト学習法は、視覚言語モデルの表現表現と正確なアライメント機能を活用して、堅牢な素早い学習を実現するためのシンプルで効率的なアプローチを提供する。
我々はNLPromptを様々なノイズ設定の広範な実験により検証し、大幅な性能向上を示した。
関連論文リスト
- Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning [23.129998055266245]
現在の擬似ラベル戦略は、しばしば意味情報と視覚情報のミスマッチに苦しむ。
textbfAugmenting Dtextbfiscriminative textbfRichness via Diffusions (AiR)
論文 参考訳(メタデータ) (2025-04-16T10:09:45Z) - Hide and Seek in Noise Labels: Noise-Robust Collaborative Active Learning with LLM-Powered Assistance [17.359530437698723]
ノイズラベル(LNL)からの学習は、収集されたトレーニングデータが誤ったラベルや破損したラベルを含むことができる多くの実世界のシナリオで発生する課題である。
既存のソリューションのほとんどは、ノイズの多いラベルを特定し、アクティブな学習を採用して、人間の専門家にノイズを問う。
本稿では,大規模な言語モデルと,雑音ラベルから学習するための小さなモデルを組み合わせた,能動的学習に基づく革新的な協調学習フレームワークであるNossalを提案する。
論文 参考訳(メタデータ) (2025-04-03T04:36:39Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Noise-Robust Fine-Tuning of Pretrained Language Models via External
Guidance [61.809732058101304]
ノイズラベルを用いた微調整PLMの革新的な手法を提案する。
このアプローチにはChatGPTのようなLarge Language Models(LLM)のガイダンスが組み込まれている。
このガイダンスは、クリーンサンプルとノイズサンプルを正確に区別するのに役立つ。
論文 参考訳(メタデータ) (2023-11-02T09:20:38Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。