Fugu-MT 論文翻訳(概要): Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning

論文の概要: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning

arxiv url: http://arxiv.org/abs/2412.20392v1
Date: Sun, 29 Dec 2024 08:09:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.599323
Title: Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning
Title（参考訳）: Repulsive Visual Prompt Tuning によるマルチモーダルバックドアモデルの構築
Authors: Zhifang Zhang, Shuo He, Bingquan Shen, Lei Feng,
Abstract要約: マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。本稿では,新しい防御手法としてRepulsive Visual Prompt Tuning (RVPT)を提案する。
参考スコア（独自算出の注目度）: 13.802845998402677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal contrastive learning models (e.g., CLIP) can learn high-quality representations from large-scale image-text datasets, yet they exhibit significant vulnerabilities to backdoor attacks, raising serious safety concerns. In this paper, we disclose that CLIP's vulnerabilities primarily stem from its excessive encoding of class-irrelevant features, which can compromise the model's visual feature resistivity to input perturbations, making it more susceptible to capturing the trigger patterns inserted by backdoor attacks. Inspired by this finding, we propose Repulsive Visual Prompt Tuning (RVPT), a novel defense approach that employs specially designed deep visual prompt tuning and feature-repelling loss to eliminate excessive class-irrelevant features while simultaneously optimizing cross-entropy loss to maintain clean accuracy. Unlike existing multimodal backdoor defense methods that typically require the availability of poisoned data or involve fine-tuning the entire model, RVPT leverages few-shot downstream clean samples and only tunes a small number of parameters. Empirical results demonstrate that RVPT tunes only 0.27\% of the parameters relative to CLIP, yet it significantly outperforms state-of-the-art baselines, reducing the attack success rate from 67.53\% to 2.76\% against SoTA attacks and effectively generalizing its defensive capabilities across multiple datasets.
Abstract（参考訳）: マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができるが、バックドア攻撃に対する重大な脆弱性を示し、深刻な安全性上の懸念を提起する。本稿では、CLIPの脆弱性は、主にクラス非関連機能の過剰なエンコーディングによるものであり、入力摂動に対するモデルの視覚的特徴比抵抗を損なうおそれがあり、バックドアアタックによって挿入されるトリガーパターンのキャプチャがより容易であることを示す。この発見にインスパイアされたRepulsive Visual Prompt Tuning (RVPT) は,高過度なクラス非関連特徴を排除し,同時にクロスエントロピー損失を最適化し,クリーンな精度を維持するために特別に設計された深層視覚刺激チューニングと特徴反発損失を利用する新しい防御手法である。通常、有毒なデータの入手やモデル全体の微調整を必要とする既存のマルチモーダルバックドア防御法とは異なり、RVPTは数発の下流のクリーンサンプルを活用し、少数のパラメータのみをチューニングする。実証的な結果は、RVPTがCLIPに対するパラメータの0.27\%しかチューニングしていないことを示しているが、最先端のベースラインを著しく上回り、SoTA攻撃に対する攻撃成功率を67.53\%から2.76\%に削減し、複数のデータセットにわたる防御能力を効果的に一般化している。

関連論文リスト

InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。 InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文参考訳（メタデータ） (2025-06-14T09:08:34Z)
Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。 Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文参考訳（メタデータ） (2025-06-04T01:23:35Z)
Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文参考訳（メタデータ） (2025-05-22T03:00:39Z)
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。 R-TPTは、推論段階における敵攻撃の影響を緩和する。プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文参考訳（メタデータ） (2025-04-15T13:49:31Z)
Stealthy Patch-Wise Backdoor Attack in 3D Point Cloud via Curvature Awareness [52.07366900097567]
バックドア攻撃はディープニューラルネットワーク(DNN)に深刻な脅威をもたらす既存の3Dポイントのクラウドバックドア攻撃は、サンプルワイドなグローバルな修正に依存している。我々は,3Dポイントクラウド用のパッチワイドバックドアアタックフレームワークであるStealthy Patch-Wise Backdoor Attack (SPBA)を提案する。
論文参考訳（メタデータ） (2025-03-12T12:30:59Z)
Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。 CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文参考訳（メタデータ） (2025-02-26T16:25:15Z)
TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。 TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文参考訳（メタデータ） (2024-11-20T08:58:59Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。 CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文参考訳（メタデータ） (2023-11-25T06:55:13Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。 CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文参考訳（メタデータ） (2023-03-06T17:48:32Z)
Invariant Aggregator for Defending against Federated Backdoor Attacks [28.416262423174796]
フェデレートラーニングは、プライベートデータを直接共有することなく、複数のクライアントで高ユーティリティモデルをトレーニングすることを可能にする。欠点として、フェデレートされた設定は、悪意のあるクライアントの存在下での様々な敵攻撃に対して、モデルを脆弱にする。本稿では、集約された更新を一般的に有用である不変方向へリダイレクトする不変アグリゲータを提案する。
論文参考訳（メタデータ） (2022-10-04T18:06:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。