論文の概要: Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise
- arxiv url: http://arxiv.org/abs/2604.09532v1
- Date: Fri, 10 Apr 2026 17:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.988689
- Title: Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise
- Title(参考訳): ロバスト・ビジョン誘導型クロスモーダル・プロンプト・ラーニング
- Authors: Zibin Geng, Xuefeng Jiang, Jia Li, Zheng Li, Tian Wen, Lvhua Wu, Sheng Sun, Yuwei Wang, Min Liu,
- Abstract要約: ノイズラベル設定のための視覚誘導学習フレームワークVisPromptを提案する。
我々は、視覚的意味論を即時表現に逆注入するために、モーダルな注意機構を利用する。
VisPromptは、トレーニング済みのVLMバックボーンを凍結させ、少量のトレーニング可能なパラメータのみを導入しながら、ロバスト性を大幅に改善する。
- 参考スコア(独自算出の注目度): 19.372722047131862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning is a parameter-efficient approach for vision-language models, yet its robustness under label noise is less investigated. Visual content contains richer and more reliable semantic information, which remains more robust under label noise. However, the prompt itself is highly susceptible to label noise. Motivated by this intuition, we propose VisPrompt, a lightweight and robust vision-guided prompt learning framework for noisy-label settings. Specifically, we exploit a cross-modal attention mechanism to reversely inject visual semantics into prompt representations. This enables the prompt tokens to selectively aggregate visual information relevant to the current sample, thereby improving robustness by anchoring prompt learning to stable instance-level visual evidence and reducing the influence of noisy supervision. To address the instability caused by using the same way of injecting visual information for all samples, despite differences in the quality of their visual cues, we further introduce a lightweight conditional modulation mechanism to adaptively control the strength of visual information injection, which strikes a more robust balance between text-side semantic priors and image-side instance evidence. The proposed framework effectively suppresses the noise-induced disturbances, reduce instability in prompt updates, and alleviate memorization of mislabeled samples. VisPrompt significantly improves robustness while keeping the pretrained VLM backbone frozen and introducing only a small amount of additional trainable parameters. Extensive experiments under synthetic and real-world label noise demonstrate that VisPrompt generally outperforms existing baselines on seven benchmark datasets and achieves stronger robustness. Our code is publicly available at https://github.com/gezbww/Vis_Prompt.
- Abstract(参考訳): プロンプト学習は視覚言語モデルに対するパラメータ効率のよい手法であるが、ラベル雑音下での頑健さは研究されていない。
ビジュアルコンテンツは、よりリッチで信頼性の高いセマンティック情報を含んでいる。
しかし、プロンプト自体がラベルノイズの影響を受けやすい。
この直感に触発され、ノイズラベル設定のための軽量で堅牢な視覚誘導学習フレームワークVisPromptを提案する。
具体的には、モーダルな注意機構を利用して、視覚的意味論をインタプリタ表現に逆注入する。
これにより、プロンプトトークンは、現在のサンプルに関連する視覚情報を選択的に集約することができ、即時学習をインスタンスレベルの視覚的エビデンスに固定し、ノイズ管理の影響を低減することにより、堅牢性を向上させることができる。
視覚的手がかりの質に違いはあるものの,全てのサンプルに対して同じ方法で視覚情報を注入することによる不安定性に対処するため,テキスト側のセマンティック先行と画像側の事例証拠とのより堅牢なバランスをとるために,視覚情報注入の強度を適応的に制御する軽量な条件調整機構を導入する。
提案手法は, ノイズによる乱れを効果的に抑制し, 即時更新における不安定性を低減し, 誤ラベル標本の暗記を緩和する。
VisPromptは、トレーニング済みのVLMバックボーンを凍結させ、少量のトレーニング可能なパラメータのみを導入しながら、ロバスト性を大幅に改善する。
合成および実世界のラベルノイズの下での大規模な実験は、VisPromptが7つのベンチマークデータセットで既存のベースラインを上回っ、強い堅牢性を達成することを示す。
私たちのコードはhttps://github.com/gezbww/Vis_Prompt.comで公開されています。
関連論文リスト
- Love Me, Love My Label: Rethinking the Role of Labels in Prompt Retrieval for Visual In-Context Learning [79.61386774847357]
ビジュアル・イン・コンテキスト・ラーニング(VICL)は、視覚基礎モデルを実証的なプロンプトで操作することで複数のタスクを処理できるようにする。
このようなプロンプトの選択はVICLのパフォーマンスに大きく影響し、重要な課題として際立っている。
我々は,ラベル選択におけるラベルの役割を強調するLaPR(Label-aware Prompt Retrieval)というフレームワークを開発した。
論文 参考訳(メタデータ) (2026-04-04T09:18:31Z) - Robust Prompt Tuning for Vision-Language Models with Mild Semantic Noise [9.536089523962486]
本稿では弱いセマンティックノイズを積極的に組み込んだ堅牢なプロンプトチューニングフレームワークであるANPromptを提案する。
我々は、ANPromptが既存のプロンプトチューニング手法より一貫して優れていることを示す。
セマンティックノイズに対して優れたロバスト性を提供し、タスク間の一般化を改善している。
論文 参考訳(メタデータ) (2025-08-06T17:42:30Z) - NLPrompt: Noise-Label Prompt Learning for Vision-Language Models [45.35555264802591]
実世界のデータセットは、しばしば、迅速な学習性能を劣化させるうるノイズの多いラベルを含んでいる。
本稿では,PromptMAEという名前の学習における平均絶対誤差(MAE)損失を用いることで,雑音ラベルに対するロバスト性を著しく向上することを示す。
また,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
論文 参考訳(メタデータ) (2024-12-02T08:25:09Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。