論文の概要: One Surrogate to Fool Them All: Universal, Transferable, and Targeted Adversarial Attacks with CLIP
- arxiv url: http://arxiv.org/abs/2505.19840v1
- Date: Mon, 26 May 2025 11:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.380908
- Title: One Surrogate to Fool Them All: Universal, Transferable, and Targeted Adversarial Attacks with CLIP
- Title(参考訳): フール・テーマの1つ:CLIPによるユニバーサル、トランスファー可能、ターゲット化された敵攻撃
- Authors: Binyan Xu, Xilin Dai, Di Tang, Kehuan Zhang,
- Abstract要約: UnivIntruderは、単一の公開CLIPモデルと公開データセットのみに依存する、新しいアタックフレームワークである。
実験の結果,ImageNetでは最大85%,CIFAR-10では99%のアタック成功率(ASR)が達成され,既存の転送方式よりも優れていた。
- 参考スコア(独自算出の注目度): 8.41221824218595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) have achieved widespread success yet remain prone to adversarial attacks. Typically, such attacks either involve frequent queries to the target model or rely on surrogate models closely mirroring the target model -- often trained with subsets of the target model's training data -- to achieve high attack success rates through transferability. However, in realistic scenarios where training data is inaccessible and excessive queries can raise alarms, crafting adversarial examples becomes more challenging. In this paper, we present UnivIntruder, a novel attack framework that relies solely on a single, publicly available CLIP model and publicly available datasets. By using textual concepts, UnivIntruder generates universal, transferable, and targeted adversarial perturbations that mislead DNNs into misclassifying inputs into adversary-specified classes defined by textual concepts. Our extensive experiments show that our approach achieves an Attack Success Rate (ASR) of up to 85% on ImageNet and over 99% on CIFAR-10, significantly outperforming existing transfer-based methods. Additionally, we reveal real-world vulnerabilities, showing that even without querying target models, UnivIntruder compromises image search engines like Google and Baidu with ASR rates up to 84%, and vision language models like GPT-4 and Claude-3.5 with ASR rates up to 80%. These findings underscore the practicality of our attack in scenarios where traditional avenues are blocked, highlighting the need to reevaluate security paradigms in AI applications.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は広く成功しているが、敵の攻撃を受けやすい。
通常、そのような攻撃は、ターゲットモデルへの頻繁なクエリを伴うか、あるいはターゲットモデルのトレーニングデータのサブセットで訓練された、ターゲットモデルのサロゲートモデルに依存して、転送可能性を通じて高い攻撃成功率を達成する。
しかし、トレーニングデータがアクセス不能で過剰なクエリがアラームを発生させる現実的なシナリオでは、敵の例を作成することがより困難になる。
本稿では,単一の公開CLIPモデルと公開データセットのみに依存する,新たな攻撃フレームワークであるUnivIntruderを提案する。
テキストの概念を用いることで、UnivIntruderは汎用的で転送可能で、ターゲットとなる敵の摂動を生成し、DNNをテキストの概念によって定義された敵対的特定クラスへの入力を誤って分類する。
実験の結果,ImageNetでは最大85%,CIFAR-10では99%のアタック成功率(ASR)を達成できた。
さらに、ターゲットモデルをクエリしなくても、UnivIntruderは、GoogleやBaiduのようなイメージ検索エンジンをASRレートで84%、GPT-4やClaude-3.5のようなビジョン言語モデルでASRレートで80%まで妥協します。
これらの発見は、従来の方法がブロックされたシナリオにおける攻撃の実用性を強調し、AIアプリケーションにおけるセキュリティパラダイムの再評価の必要性を強調している。
関連論文リスト
- Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - Model Hijacking Attack in Federated Learning [19.304332176437363]
HijackFLは、フェデレートラーニングにおけるグローバルモデルに対する、第一級のハイジャック攻撃である。
それは、サーバや良心的なクライアントの通知なしに、グローバルモデルが元のタスクとは異なるタスクを実行するように強制することを目的としています。
4つのベンチマークデータセットと3つの人気のあるモデルについて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-04T20:02:07Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Resisting Deep Learning Models Against Adversarial Attack
Transferability via Feature Randomization [17.756085566366167]
本研究では,ディープラーニングモデルを対象とした8つの敵攻撃に抵抗する特徴ランダム化に基づく手法を提案する。
本手法は,標的ネットワークを確保でき,敵の攻撃伝達可能性に対して60%以上抵抗することができる。
論文 参考訳(メタデータ) (2022-09-11T20:14:12Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Fabricated Flips: Poisoning Federated Learning without Data [9.060263645085564]
フェデレートラーニング(FL)に対する攻撃は、生成されたモデルの品質を大幅に低下させる。
本稿では、悪意のあるデータを合成し、敵対的モデルを構築するデータフリーな未標的攻撃(DFA)を提案する。
DFAは、最先端の未標的攻撃と同じような、あるいはそれ以上の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2022-02-07T20:38:28Z) - Interpolated Joint Space Adversarial Training for Robust and
Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。
近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。
我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。
JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文 参考訳(メタデータ) (2021-12-12T21:08:14Z) - Double Targeted Universal Adversarial Perturbations [83.60161052867534]
本稿では, インスタンス別画像依存摂動と汎用的普遍摂動のギャップを埋めるために, 二重目標普遍摂動(DT-UAP)を導入する。
提案したDTAアルゴリズムの幅広いデータセットに対する有効性を示すとともに,物理攻撃の可能性を示す。
論文 参考訳(メタデータ) (2020-10-07T09:08:51Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。