論文の概要: ANPrompt: Anti-noise Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.04677v1
- Date: Wed, 06 Aug 2025 17:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.859379
- Title: ANPrompt: Anti-noise Prompt Tuning for Vision-Language Models
- Title(参考訳): ANPrompt:視覚言語モデルのためのアンチノイズプロンプトチューニング
- Authors: Yansheng Gao, Yufei Zheng, Jinghan Qu, Zixi Zhu, Yukuan Zhang, Shengsheng Wang,
- Abstract要約: 本稿では,ノイズ摂動下でのロバスト性向上のための新しいプロンプトチューニングフレームワークであるANPromptを提案する。
ANPromptは、オリジナルとノイズの混在したテキストを融合して弱いノイズテキスト機能を構築し、それをクラスタ化してノイズプロンプトを形成する。
11ベンチマークの実験では、ANPromptが既存のプロンプトチューニングアプローチを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 0.5717569761927883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt tuning has emerged as an efficient and effective technique for adapting vision-language models (VLMs) with low computational overhead. However, existing methods often overlook the vulnerability of prompt-tuned VLMs to weak semantic perturbations-such as subtle image or text noise-that degrade their generalization to unseen classes. To address this limitation, we propose ANPrompt, a novel prompt tuning framework designed to enhance robustness under such perturbations. ANPrompt first constructs weak noise text features by fusing original and noise-perturbed text embeddings, which are then clustered to form noise prompts. These noise prompts are integrated with learnable prompt tokens to generate anti-noise prompts, which are injected into the deeper layers of both image and text encoders. To further capture the noise-aware visual semantics, ANPrompt computes the Noise-Resistant Visual Prompt Prototype (NRVPP) by averaging the output prompt tokens from the vision encoder. Finally, ANPrompt introduces alignment, robustness, and anti-noise objectives by computing a Weak semantic noise Alignment Loss (WALoss) alongside the standard cross-entropy and sim loss. Experiments across 11 benchmarks demonstrate that ANPrompt consistently outperforms existing prompt tuning approaches, achieving superior robustness to semantic noise and improved generalization to novel categories.
- Abstract(参考訳): プロンプトチューニングは、低計算オーバーヘッドで視覚言語モデル(VLM)を適用するための効率的かつ効果的な手法として登場した。
しかし、既存の手法は、しばしば、微妙な画像やテキストノイズなどの弱いセマンティック摂動に対する、プロンプトチューニングされたVLMの脆弱性を見落とし、一般化を目に見えないクラスに格下げする。
この制限に対処するために、このような摂動下での堅牢性を高めるために設計された新しいプロンプトチューニングフレームワークであるANPromptを提案する。
ANPromptは最初、オリジナルとノイズを乱したテキストの埋め込みを融合して弱いノイズテキスト機能を構築し、それをクラスタ化してノイズプロンプトを形成する。
これらのノイズプロンプトは学習可能なプロンプトトークンと統合され、画像とテキストエンコーダの深い層に注入されるアンチノイズプロンプトを生成する。
ノイズ対応視覚意味論をさらに捉えるために、ANPromptは、視覚エンコーダから出力プロンプトトークンを平均化することにより、ノイズ耐性視覚プロンプトプロトタイプ(NRVPP)を計算する。
最後に、ANPromptは、標準的なクロスエントロピーとシムロスと共に、弱意味ノイズアライメント損失(WALoss)を計算することで、アライメント、ロバスト性、アンチノイズの目的を導入する。
11のベンチマークでの実験では、ANPromptは既存のプロンプトチューニングアプローチを一貫して上回り、セマンティックノイズに対する優れた堅牢性を実現し、新しいカテゴリへの一般化を改善した。
関連論文リスト
- OptiPrune: Boosting Prompt-Image Consistency with Attention-Guided Noise and Dynamic Token Selection [0.0]
分布を考慮した初期ノイズ最適化と類似性に基づくトークンプルーニングを組み合わせた統合フレームワークを提案する。
Animal-Animalを含むベンチマークデータセットの実験では、OptiPruneは計算コストを大幅に削減し、最先端のプロンプトイメージの一貫性を達成している。
論文 参考訳(メタデータ) (2025-07-01T14:24:40Z) - The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - NLPrompt: Noise-Label Prompt Learning for Vision-Language Models [45.35555264802591]
実世界のデータセットは、しばしば、迅速な学習性能を劣化させるうるノイズの多いラベルを含んでいる。
本稿では,PromptMAEという名前の学習における平均絶対誤差(MAE)損失を用いることで,雑音ラベルに対するロバスト性を著しく向上することを示す。
また,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
論文 参考訳(メタデータ) (2024-12-02T08:25:09Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。