論文の概要: Robust Prompt Tuning for Vision-Language Models with Mild Semantic Noise
- arxiv url: http://arxiv.org/abs/2508.04677v3
- Date: Thu, 02 Oct 2025 14:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.028475
- Title: Robust Prompt Tuning for Vision-Language Models with Mild Semantic Noise
- Title(参考訳): 弱セマンティック雑音を伴う視覚言語モデルのロバストプロンプトチューニング
- Authors: Yansheng Gao, Yufei Zheng, Shengsheng Wang,
- Abstract要約: 本稿では弱いセマンティックノイズを積極的に組み込んだ堅牢なプロンプトチューニングフレームワークであるANPromptを提案する。
我々は、ANPromptが既存のプロンプトチューニング手法より一貫して優れていることを示す。
セマンティックノイズに対して優れたロバスト性を提供し、タスク間の一般化を改善している。
- 参考スコア(独自算出の注目度): 9.536089523962486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt tuning has shown promising results, but its robustness and generalization to unseen categories remain limited. Through our experiments, we demonstrate that the complete removal of semantic noise is a key factor restricting robustness. Existing methods typically suppress or filter out semantic noise in the prompt space, inadvertently hindering the model's robustness and its ability to generalize to unseen categories. To address this, we propose ANPrompt, a robust prompt tuning framework that actively incorporates weak semantic noise. By clustering weakly perturbed features into noise prompts and integrating them with learnable tokens in both the text and vision encoders, ANPrompt ensures controlled exposure to semantic variations. To enhance the visual pathway, we introduce the Noise-Resistant Visual Prompt Prototype (NRVPP), which stabilizes visual semantics under weak perturbations. Additionally, we propose a Weak Alignment Loss (WALoss) at the logits level to enforce consistency between clean and perturbed predictions, providing stable supervision. By combining weak semantic noise exposure with logits-based consistency, ANPrompt prevents overfitting to specific phrasings while preserving semantic integrity. Extensive experiments across 11 benchmarks, including base-to-new splits, show that ANPrompt consistently outperforms existing prompt tuning methods, offering superior robustness to semantic noise and improved generalization across tasks.
- Abstract(参考訳): プロンプトチューニングは有望な結果を示しているが、その頑健さと未確認なカテゴリへの一般化は依然として限られている。
実験により, セマンティックノイズの完全除去がロバスト性を制限する重要な要因であることを実証した。
既存の手法は、通常、プロンプト空間のセマンティックノイズを抑圧またはフィルタリングし、不注意にモデルの頑丈さと、目に見えないカテゴリに一般化する能力を妨げている。
そこで本稿では,弱いセマンティックノイズを積極的に組み込んだ堅牢なプロンプトチューニングフレームワークであるANPromptを提案する。
弱い摂動機能をノイズプロンプトにクラスタ化して、テキストと視覚エンコーダの両方で学習可能なトークンと統合することにより、ANPromptはセマンティックなバリエーションに対する制御された露出を保証する。
視覚経路を改善するために,弱い摂動下での視覚的意味論を安定化するNRVPP(Noss-Resistant Visual Prompt Prototype)を導入する。
さらに,ロジットレベルでの弱アライメント損失(WALoss)を提案し,クリーンな予測と摂動予測の整合性を実現し,安定した監視を実現する。
弱いセマンティックノイズ露光とロジットベースの一貫性を組み合わせることで、ANPromptはセマンティックな整合性を維持しながら特定のフレーズへの過度な適合を防止する。
ベース・ツー・ニュー分割を含む11のベンチマークにわたる大規模な実験は、ANPromptが既存のプロンプトチューニング手法を一貫して上回り、セマンティックノイズに対する優れたロバスト性を提供し、タスク間の一般化を改善していることを示している。
関連論文リスト
- Noise-Adaptive Regularization for Robust Multi-Label Remote Sensing Image Classification [5.658568324275769]
付加音と減音音を区別する雑音適応正規化法であるNARを提案する。
NARは、既存の方法と比較して、一貫して堅牢性を改善する。
性能改善は、減音と混合ノイズの下で最も顕著である。
論文 参考訳(メタデータ) (2026-01-13T11:16:45Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Explainable Disentanglement on Discrete Speech Representations for Noise-Robust ASR [37.09163295946173]
本稿では,潜時空間における背景雑音から意味的音声内容を引き離す手法を提案する。
我々のエンドツーエンドモデルは、解釈可能なノイズベクトルを抽出しながら、クリーン音声をコードブックトークンの形で分離する。
提案手法は、クリーン/ノイズの多い音声とテキストのアライメントを改善し、高いノイズ分散を示す音声トークンを生成する。
論文 参考訳(メタデータ) (2025-10-29T04:08:19Z) - Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs [54.229363096087866]
音声トークン化器は、意味不明な音響摂動に対して頑健ではない。
この不安定性は、脆い単一パス量子化アーキテクチャと遠い訓練信号の2つの欠陥に由来する。
コンセンサス駆動機構による安定性を実現するトークンライザであるStableTokenを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:32:51Z) - OptiPrune: Boosting Prompt-Image Consistency with Attention-Guided Noise and Dynamic Token Selection [0.0]
分布を考慮した初期ノイズ最適化と類似性に基づくトークンプルーニングを組み合わせた統合フレームワークを提案する。
Animal-Animalを含むベンチマークデータセットの実験では、OptiPruneは計算コストを大幅に削減し、最先端のプロンプトイメージの一貫性を達成している。
論文 参考訳(メタデータ) (2025-07-01T14:24:40Z) - Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。
noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。
NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文 参考訳(メタデータ) (2025-04-04T09:27:19Z) - The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - NLPrompt: Noise-Label Prompt Learning for Vision-Language Models [45.35555264802591]
実世界のデータセットは、しばしば、迅速な学習性能を劣化させるうるノイズの多いラベルを含んでいる。
本稿では,PromptMAEという名前の学習における平均絶対誤差(MAE)損失を用いることで,雑音ラベルに対するロバスト性を著しく向上することを示す。
また,ロバスト性を高めるために,プロンプトを用いた最適輸送データ浄化手法であるPromptOTを導入する。
論文 参考訳(メタデータ) (2024-12-02T08:25:09Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - Noise-BERT: A Unified Perturbation-Robust Framework with Noise Alignment
Pre-training for Noisy Slot Filling Task [14.707646721729228]
現実的な対話システムでは、ユーザからの入力情報は様々な種類の入力摂動の対象となることが多い。
本研究では,ノイズアライメント事前学習による摂動ロバスト統合フレームワークであるNoss-BERTを提案する。
本フレームワークは,2つのノイズアライメント事前学習タスクを組み込んでいる。
論文 参考訳(メタデータ) (2024-02-22T12:39:50Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。