論文の概要: Robust Prompt Tuning for Vision-Language Models with Mild Semantic Noise
- arxiv url: http://arxiv.org/abs/2508.04677v3
- Date: Thu, 02 Oct 2025 14:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.028475
- Title: Robust Prompt Tuning for Vision-Language Models with Mild Semantic Noise
- Title(参考訳): 弱セマンティック雑音を伴う視覚言語モデルのロバストプロンプトチューニング
- Authors: Yansheng Gao, Yufei Zheng, Shengsheng Wang,
- Abstract要約: 本稿では弱いセマンティックノイズを積極的に組み込んだ堅牢なプロンプトチューニングフレームワークであるANPromptを提案する。
我々は、ANPromptが既存のプロンプトチューニング手法より一貫して優れていることを示す。
セマンティックノイズに対して優れたロバスト性を提供し、タスク間の一般化を改善している。
- 参考スコア(独自算出の注目度): 9.536089523962486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt tuning has shown promising results, but its robustness and generalization to unseen categories remain limited. Through our experiments, we demonstrate that the complete removal of semantic noise is a key factor restricting robustness. Existing methods typically suppress or filter out semantic noise in the prompt space, inadvertently hindering the model's robustness and its ability to generalize to unseen categories. To address this, we propose ANPrompt, a robust prompt tuning framework that actively incorporates weak semantic noise. By clustering weakly perturbed features into noise prompts and integrating them with learnable tokens in both the text and vision encoders, ANPrompt ensures controlled exposure to semantic variations. To enhance the visual pathway, we introduce the Noise-Resistant Visual Prompt Prototype (NRVPP), which stabilizes visual semantics under weak perturbations. Additionally, we propose a Weak Alignment Loss (WALoss) at the logits level to enforce consistency between clean and perturbed predictions, providing stable supervision. By combining weak semantic noise exposure with logits-based consistency, ANPrompt prevents overfitting to specific phrasings while preserving semantic integrity. Extensive experiments across 11 benchmarks, including base-to-new splits, show that ANPrompt consistently outperforms existing prompt tuning methods, offering superior robustness to semantic noise and improved generalization across tasks.
- Abstract(参考訳): プロンプトチューニングは有望な結果を示しているが、その頑健さと未確認なカテゴリへの一般化は依然として限られている。
実験により, セマンティックノイズの完全除去がロバスト性を制限する重要な要因であることを実証した。
既存の手法は、通常、プロンプト空間のセマンティックノイズを抑圧またはフィルタリングし、不注意にモデルの頑丈さと、目に見えないカテゴリに一般化する能力を妨げている。
そこで本稿では,弱いセマンティックノイズを積極的に組み込んだ堅牢なプロンプトチューニングフレームワークであるANPromptを提案する。
弱い摂動機能をノイズプロンプトにクラスタ化して、テキストと視覚エンコーダの両方で学習可能なトークンと統合することにより、ANPromptはセマンティックなバリエーションに対する制御された露出を保証する。
視覚経路を改善するために,弱い摂動下での視覚的意味論を安定化するNRVPP(Noss-Resistant Visual Prompt Prototype)を導入する。
さらに,ロジットレベルでの弱アライメント損失(WALoss)を提案し,クリーンな予測と摂動予測の整合性を実現し,安定した監視を実現する。
弱いセマンティックノイズ露光とロジットベースの一貫性を組み合わせることで、ANPromptはセマンティックな整合性を維持しながら特定のフレーズへの過度な適合を防止する。
ベース・ツー・ニュー分割を含む11のベンチマークにわたる大規模な実験は、ANPromptが既存のプロンプトチューニング手法を一貫して上回り、セマンティックノイズに対する優れたロバスト性を提供し、タスク間の一般化を改善していることを示している。
関連論文リスト
- OptiPrune: Boosting Prompt-Image Consistency with Attention-Guided Noise and Dynamic Token Selection [0.0]
分布を考慮した初期ノイズ最適化と類似性に基づくトークンプルーニングを組み合わせた統合フレームワークを提案する。
Animal-Animalを含むベンチマークデータセットの実験では、OptiPruneは計算コストを大幅に削減し、最先端のプロンプトイメージの一貫性を達成している。
論文 参考訳(メタデータ) (2025-07-01T14:24:40Z) - The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - NLPrompt: Noise-Label Prompt Learning for Vision-Language Models [45.35555264802591]
実世界のデータセットは、しばしば、迅速な学習性能を劣化させるうるノイズの多いラベルを含んでいる。
本稿では,PromptMAEという名前の学習における平均絶対誤差(MAE)損失を用いることで,雑音ラベルに対するロバスト性を著しく向上することを示す。
また,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
論文 参考訳(メタデータ) (2024-12-02T08:25:09Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。