Fugu-MT 論文翻訳(概要): Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning

論文の概要: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning

arxiv url: http://arxiv.org/abs/2412.20392v3
Date: Fri, 23 May 2025 00:11:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 15:51:02.723216
Title: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning
Title（参考訳）: Repulsive Visual Prompt Tuning によるマルチモーダルバックドアモデルの構築
Authors: Zhifang Zhang, Shuo He, Haobo Wang, Bingquan Shen, Lei Feng,
Abstract要約: マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。本稿では,視覚的プロンプトチューニングと特殊に設計された機能的損失を利用した新しい防御手法であるRepulsive Visual Prompt Tuning (RVPT)を提案する。
参考スコア（独自算出の注目度）: 19.638259197558625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal contrastive learning models (e.g., CLIP) can learn high-quality representations from large-scale image-text datasets, while they exhibit significant vulnerabilities to backdoor attacks, raising serious safety concerns. In this paper, we reveal that CLIP's vulnerabilities primarily stem from its tendency to encode features beyond in-dataset predictive patterns, compromising its visual feature resistivity to input perturbations. This makes its encoded features highly susceptible to being reshaped by backdoor triggers. To address this challenge, we propose Repulsive Visual Prompt Tuning (RVPT), a novel defense approach that employs deep visual prompt tuning with a specially designed feature-repelling loss. Specifically, RVPT adversarially repels the encoded features from deeper layers while optimizing the standard cross-entropy loss, ensuring that only predictive features in downstream tasks are encoded, thereby enhancing CLIP's visual feature resistivity against input perturbations and mitigating its susceptibility to backdoor attacks. Unlike existing multimodal backdoor defense methods that typically require the availability of poisoned data or involve fine-tuning the entire model, RVPT leverages few-shot downstream clean samples and only tunes a small number of parameters. Empirical results demonstrate that RVPT tunes only 0.27\% of the parameters in CLIP, yet it significantly outperforms state-of-the-art defense methods, reducing the attack success rate from 89.70\% to 2.76\% against the most advanced multimodal attacks on ImageNet and effectively generalizes its defensive capabilities across multiple datasets.
Abstract（参考訳）: マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習すると同時に、バックドア攻撃に対する重大な脆弱性を示し、深刻な安全性上の懸念を提起する。本稿では,CLIPの脆弱性は,データ内の予測パターンを超えた特徴を符号化する傾向に起因し,入力摂動に対する視覚的特徴比が向上することを明らかにする。これにより、エンコードされた特徴はバックドアトリガーによって形を変えられる。この課題に対処するために,特殊に設計された機能的損失を伴う深層視覚的プロンプトチューニングを用いた新しい防御手法であるRepulsive Visual Prompt Tuning (RVPT)を提案する。具体的には、RVPTは、標準のクロスエントロピー損失を最適化し、下流タスクにおける予測的特徴のみを符号化することで、入力摂動に対するCLIPの視覚的特徴比を向上し、バックドアアタックに対する感受性を緩和する。通常、有毒なデータの入手やモデル全体の微調整を必要とする既存のマルチモーダルバックドア防御法とは異なり、RVPTは数発の下流のクリーンサンプルを活用し、少数のパラメータのみをチューニングする。実証的な結果によると、RVPTはCLIPのパラメータの0.27\%しか調整していないが、最先端の防御手法を著しく上回り、ImageNetの最も先進的なマルチモーダル攻撃に対して攻撃成功率を89.70\%から2.76\%に下げ、複数のデータセットでその防御能力を効果的に一般化している。

関連論文リスト

InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。 InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文参考訳（メタデータ） (2025-06-14T09:08:34Z)
Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。 Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文参考訳（メタデータ） (2025-06-04T01:23:35Z)
Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文参考訳（メタデータ） (2025-05-22T03:00:39Z)
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。 R-TPTは、推論段階における敵攻撃の影響を緩和する。プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文参考訳（メタデータ） (2025-04-15T13:49:31Z)
Stealthy Patch-Wise Backdoor Attack in 3D Point Cloud via Curvature Awareness [52.07366900097567]
バックドア攻撃はディープニューラルネットワーク(DNN)に深刻な脅威をもたらす既存の3Dポイントのクラウドバックドア攻撃は、サンプルワイドなグローバルな修正に依存している。我々は,3Dポイントクラウド用のパッチワイドバックドアアタックフレームワークであるStealthy Patch-Wise Backdoor Attack (SPBA)を提案する。
論文参考訳（メタデータ） (2025-03-12T12:30:59Z)
Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。 CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文参考訳（メタデータ） (2025-02-26T16:25:15Z)
TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。 TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文参考訳（メタデータ） (2024-11-20T08:58:59Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。 CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文参考訳（メタデータ） (2023-11-25T06:55:13Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。 CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文参考訳（メタデータ） (2023-03-06T17:48:32Z)
Invariant Aggregator for Defending against Federated Backdoor Attacks [28.416262423174796]
フェデレートラーニングは、プライベートデータを直接共有することなく、複数のクライアントで高ユーティリティモデルをトレーニングすることを可能にする。欠点として、フェデレートされた設定は、悪意のあるクライアントの存在下での様々な敵攻撃に対して、モデルを脆弱にする。本稿では、集約された更新を一般的に有用である不変方向へリダイレクトする不変アグリゲータを提案する。
論文参考訳（メタデータ） (2022-10-04T18:06:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。