Fugu-MT 論文翻訳(概要): NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models

論文の概要: NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models

arxiv url: http://arxiv.org/abs/2506.12706v1
Date: Sun, 15 Jun 2025 03:34:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:46.711292
Title: NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models
Title（参考訳）: NAP-Tuning: 可逆的ロバスト・ビジョン・ランゲージモデルのためのニューラル・アンプ・プロンプト・チューニング
Authors: Jiaming Zhang, Xin Wang, Xingjun Ma, Lingyu Qiu, Yu-Gang Jiang, Jitao Sang,
Abstract要約: AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
参考スコア（独自算出の注目度）: 72.58372335140241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) such as CLIP have demonstrated remarkable capabilities in understanding relationships between visual and textual data through joint embedding spaces. Despite their effectiveness, these models remain vulnerable to adversarial attacks, particularly in the image modality, posing significant security concerns. Building upon our previous work on Adversarial Prompt Tuning (AdvPT), which introduced learnable text prompts to enhance adversarial robustness in VLMs without extensive parameter training, we present a significant extension by introducing the Neural Augmentor framework for Multi-modal Adversarial Prompt Tuning (NAP-Tuning).Our key innovations include: (1) extending AdvPT from text-only to multi-modal prompting across both text and visual modalities, (2) expanding from single-layer to multi-layer prompt architectures, and (3) proposing a novel architecture-level redesign through our Neural Augmentor approach, which implements feature purification to directly address the distortions introduced by adversarial attacks in feature space. Our NAP-Tuning approach incorporates token refiners that learn to reconstruct purified features through residual connections, allowing for modality-specific and layer-specific feature correction.Comprehensive experiments demonstrate that NAP-Tuning significantly outperforms existing methods across various datasets and attack types. Notably, our approach shows significant improvements over the strongest baselines under the challenging AutoAttack benchmark, outperforming them by 33.5% on ViT-B16 and 33.0% on ViT-B32 architectures while maintaining competitive clean accuracy.
Abstract（参考訳）: CLIPのような視覚言語モデル(VLM)は、共同埋め込み空間を通して視覚データとテキストデータの関係を理解する際、顕著な能力を示した。その効果にもかかわらず、これらのモデルは敵の攻撃、特に画像のモダリティに弱いままであり、重大なセキュリティ上の懸念を呈している。学習可能なテキストプロンプトを導入したAdvPT(Adversarial Prompt Tuning)に関するこれまでの研究に基づいて,広範囲なパラメータトレーニングを伴わずに,VLMの対向性を高めることを目的として,NAP-Tuning(Neural Augmentor framework for Multi-modal Admpt Tuning)を導入することで,重要な拡張を提案する。 1) テキストのみからマルチモーダルへの拡張,(2) 単一層から複数層への拡張,(3) ニューラルオーグメンタアプローチによる新しいアーキテクチャレベルの再設計の提案。我々のNAP-Tuningアプローチは、残差接続によって浄化された特徴を再構築し、モダリティ特異的で層特異的な特徴補正を可能にするトークンリファインダーを組み込んでおり、NAP-Tuningは様々なデータセットやアタックタイプで既存の手法よりも大幅に優れていることを示す総合的な実験である。我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回り、競争力のあるクリーンな精度を維持している。

関連論文リスト

Integrated Structural Prompt Learning for Vision-Language Models [15.002501540565781]
本稿では、視覚言語モデル(VLM)のための統合構造プロンプト(ISP)を提案する。 ISPは、学習可能なプロンプトと凍結トークンの間の構造関係をモデル化するために、自己構造的および相互構造的プロンプトモジュールを導入している。 ISPは最先端の手法に対して競争力を発揮する。
論文参考訳（メタデータ） (2025-07-08T04:59:58Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Revisiting CroPA: A Reproducibility Study and Enhancements for Cross-Prompt Adversarial Transferability in Vision-Language Models [0.0]
VLM(Large Vision-Language Models)はコンピュータビジョンに革命をもたらし、画像分類、キャプション、視覚質問応答などのタスクを可能にする。特に視覚とテキストの両方のモダリティを操作できるシナリオでは、敵攻撃に対して非常に脆弱なままである。我々は,「イメージは1000の嘘である:視覚・言語モデルにおける逆転可能性」の総合的研究を行う。
論文参考訳（メタデータ） (2025-06-28T19:01:41Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文参考訳（メタデータ） (2025-05-22T03:00:39Z)
Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability [38.32538271219404]
視覚変換器(ViT)における計算冗長性の役割と,その逆変換性への影響について検討する。データレベルとモデルレベルを含む2種類の冗長性を同定し、攻撃効果を増幅する。この知見に基づいて,注目空間の操作,アテンションヘッドの置換,クリーントークンの正規化,ゴーストモエの多様化,テスト時間逆行訓練など,一連のテクニックを設計する。
論文参考訳（メタデータ） (2025-04-15T01:59:47Z)
Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文参考訳（メタデータ） (2023-11-19T07:47:43Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。