論文の概要: Explore the vulnerability of black-box models via diffusion models
- arxiv url: http://arxiv.org/abs/2506.07590v1
- Date: Mon, 09 Jun 2025 09:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.893551
- Title: Explore the vulnerability of black-box models via diffusion models
- Title(参考訳): 拡散モデルによるブラックボックスモデルの脆弱性の探索
- Authors: Jiacheng Shi, Yanfu Zhang, Huajie Shao, Ashley Gao,
- Abstract要約: 本研究では,アタッカーが拡散モデルAPIを利用して合成画像を生成するという,新たなセキュリティ脅威を明らかにする。
これにより、攻撃者はブラックボックス分類モデルに対するモデル抽出と転送ベースの敵攻撃を実行することができる。
本手法は,クエリ予算の0.01倍しか使用せず,最先端の手法よりも平均27.37%向上していることを示す。
- 参考スコア(独自算出の注目度): 12.444628438522702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion models have enabled high-fidelity and photorealistic image generation across diverse applications. However, these models also present security and privacy risks, including copyright violations, sensitive information leakage, and the creation of harmful or offensive content that could be exploited maliciously. In this study, we uncover a novel security threat where an attacker leverages diffusion model APIs to generate synthetic images, which are then used to train a high-performing substitute model. This enables the attacker to execute model extraction and transfer-based adversarial attacks on black-box classification models with minimal queries, without needing access to the original training data. The generated images are sufficiently high-resolution and diverse to train a substitute model whose outputs closely match those of the target model. Across the seven benchmarks, including CIFAR and ImageNet subsets, our method shows an average improvement of 27.37% over state-of-the-art methods while using just 0.01 times of the query budget, achieving a 98.68% success rate in adversarial attacks on the target model.
- Abstract(参考訳): 近年の拡散モデルの発展により、多種多様な用途にまたがる高忠実度およびフォトリアリスティックな画像生成が可能となった。
しかし、これらのモデルには、著作権侵害、機密情報漏洩、悪意あるコンテンツや攻撃的コンテンツの作成など、セキュリティとプライバシーのリスクも伴っている。
本研究では,攻撃者が拡散モデルAPIを利用して合成画像を生成する新たなセキュリティ脅威を明らかにする。
これにより、攻撃者は、元のトレーニングデータにアクセスすることなく、最小限のクエリでブラックボックス分類モデルに対してモデル抽出と転送ベースの敵攻撃を実行することができる。
生成した画像は十分に高解像度で多種多様であり、出力がターゲットモデルのものと密接に一致した代替モデルを訓練する。
CIFARとImageNetのサブセットを含む7つのベンチマークでは,クエリ予算の0.01倍しか使用せず,最新手法よりも平均27.37%向上し,ターゲットモデルに対する攻撃で98.68%の成功率を達成した。
関連論文リスト
- Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - Black-box Membership Inference Attacks against Fine-tuned Diffusion Models [4.294817908693974]
トレーニング済みの画像生成モデルをダウンロードして、さまざまな画像生成タスクのための下流データセットで微調整するユーザが増えています。
本稿では,近年の拡散モデルに適した再構成型メンバシップ推論攻撃フレームワークを提案する。
4つの異なる攻撃シナリオと3種類の攻撃を考えると、このフレームワークは一般的な条件付きジェネレータモデルをターゲットにすることができる。
論文 参考訳(メタデータ) (2023-12-13T15:25:39Z) - Latent Code Augmentation Based on Stable Diffusion for Data-free Substitute Attacks [47.84143701817491]
ブラックボックス代替攻撃では対象モデルのトレーニングデータが利用できないため、近年のスキームではGANを用いて代替モデルのトレーニングデータを生成する。
本稿では,SD(Stable Diffusion)に基づくデータフリー代替攻撃方式を提案する。
論文 参考訳(メタデータ) (2023-07-24T15:10:22Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Delving into Data: Effectively Substitute Training for Black-box Attack [84.85798059317963]
本稿では,知識盗むプロセスで使用されるデータの分散設計に焦点をあてた,新しい視点代替トレーニングを提案する。
これら2つのモジュールの組み合わせにより、代替モデルとターゲットモデルの一貫性がさらに向上し、敵攻撃の有効性が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-26T07:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。