Fugu-MT 論文翻訳(概要): Intrinsic Gradient Suppression for Label-Noise Prompt Tuning in Vision-Language Models

論文の概要: Intrinsic Gradient Suppression for Label-Noise Prompt Tuning in Vision-Language Models

arxiv url: http://arxiv.org/abs/2605.00591v1
Date: Fri, 01 May 2026 11:57:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 17:43:28.937933
Title: Intrinsic Gradient Suppression for Label-Noise Prompt Tuning in Vision-Language Models
Title（参考訳）: 視覚・言語モデルにおけるラベル・ノイズ・プロンプトチューニングの固有勾配抑制
Authors: Jiayu Li, Jiaxin Qi, Sheng Zhou, Jiaqiang Huang, Xiansheng Hua,
Abstract要約: DSPTは,高誤差雑音のサンプルから勾配を抑える自己適応飽和領域を誘導することを示した。大規模な実験により、このシンプルなドロップイン設計は様々なノイズのあるベンチマークで最先端の堅牢性を実現することが確認された。
参考スコア（独自算出の注目度）: 26.29904418630642
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastive vision-language models like CLIP exhibit remarkable zero-shot generalization. However, prompt tuning remains highly sensitive to label noise, as mislabeled samples generate disproportionately large gradients that can overwhelm pre-trained priors. We argue that because CLIP already provides a near-optimal initialization, adaptation should be inherently conservative, particularly against the extreme gradient updates common in noisy settings. To this end, we propose Double-Softmax Prompt Tuning (DSPT), a hyperparameter-free method for intrinsic gradient suppression. By applying a sequential probabilistic normalization, DSPT induces a self-adaptive saturation zone that suppresses gradients from high-error noisy samples while maintaining informative updates. We also provide both theoretical analysis and empirical evidence about how this mechanism achieves adaptive suppression. This design transforms ``gradient vanishing'', traditionally a training bottleneck, into a principled noise-filtering shield for label-noise prompt tuning. Extensive experiments confirm that this simple, drop-in design achieves state-of-the-art robustness across various noisy benchmarks, outperforming methods with complex architectures and handcrafted hyperparameters.
Abstract（参考訳）: CLIPのような対照的な視覚言語モデルは、顕著なゼロショットの一般化を示している。しかし、ラベル付きサンプルが不均等なほど大きな勾配を生成し、事前訓練された先行を圧倒してしまうため、迅速なチューニングはラベルノイズに非常に敏感なままである。私たちは、CLIPが既にほぼ最適初期化を提供しているので、適応は本質的に保守的であり、特にノイズの多い設定で一般的な極端な勾配更新に対してである、と論じています。そこで本研究では,直交勾配抑制のための超パラメータフリー手法であるDouble-Softmax Prompt Tuning (DSPT)を提案する。シーケンシャル確率正規化を適用することで、DSPTは、情報更新を維持しながら、ハイエラーノイズサンプルからの勾配を抑制する自己適応飽和ゾーンを誘導する。また,このメカニズムが適応的抑制をいかに達成するかに関する理論的解析と実証的な証拠も提供する。この設計は、伝統的に訓練のボトルネックであった '`gradient vanishing'' を、ラベルノイズの即時チューニングのための原則付きノイズフィルタリングシールドに変換する。大規模な実験により、このシンプルなドロップイン設計は、様々なノイズのあるベンチマーク、複雑なアーキテクチャと手作りのハイパーパラメータによる性能向上など、最先端の堅牢性を実現することが確認された。

論文の概要: Intrinsic Gradient Suppression for Label-Noise Prompt Tuning in Vision-Language Models

関連論文リスト