論文の概要: Explore the vulnerability of black-box models via diffusion models
- arxiv url: http://arxiv.org/abs/2506.07590v1
- Date: Mon, 09 Jun 2025 09:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.893551
- Title: Explore the vulnerability of black-box models via diffusion models
- Title(参考訳): 拡散モデルによるブラックボックスモデルの脆弱性の探索
- Authors: Jiacheng Shi, Yanfu Zhang, Huajie Shao, Ashley Gao,
- Abstract要約: 本研究では,アタッカーが拡散モデルAPIを利用して合成画像を生成するという,新たなセキュリティ脅威を明らかにする。
これにより、攻撃者はブラックボックス分類モデルに対するモデル抽出と転送ベースの敵攻撃を実行することができる。
本手法は,クエリ予算の0.01倍しか使用せず,最先端の手法よりも平均27.37%向上していることを示す。
- 参考スコア(独自算出の注目度): 12.444628438522702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion models have enabled high-fidelity and photorealistic image generation across diverse applications. However, these models also present security and privacy risks, including copyright violations, sensitive information leakage, and the creation of harmful or offensive content that could be exploited maliciously. In this study, we uncover a novel security threat where an attacker leverages diffusion model APIs to generate synthetic images, which are then used to train a high-performing substitute model. This enables the attacker to execute model extraction and transfer-based adversarial attacks on black-box classification models with minimal queries, without needing access to the original training data. The generated images are sufficiently high-resolution and diverse to train a substitute model whose outputs closely match those of the target model. Across the seven benchmarks, including CIFAR and ImageNet subsets, our method shows an average improvement of 27.37% over state-of-the-art methods while using just 0.01 times of the query budget, achieving a 98.68% success rate in adversarial attacks on the target model.
- Abstract(参考訳): 近年の拡散モデルの発展により、多種多様な用途にまたがる高忠実度およびフォトリアリスティックな画像生成が可能となった。
しかし、これらのモデルには、著作権侵害、機密情報漏洩、悪意あるコンテンツや攻撃的コンテンツの作成など、セキュリティとプライバシーのリスクも伴っている。
本研究では,攻撃者が拡散モデルAPIを利用して合成画像を生成する新たなセキュリティ脅威を明らかにする。
これにより、攻撃者は、元のトレーニングデータにアクセスすることなく、最小限のクエリでブラックボックス分類モデルに対してモデル抽出と転送ベースの敵攻撃を実行することができる。
生成した画像は十分に高解像度で多種多様であり、出力がターゲットモデルのものと密接に一致した代替モデルを訓練する。
CIFARとImageNetのサブセットを含む7つのベンチマークでは,クエリ予算の0.01倍しか使用せず,最新手法よりも平均27.37%向上し,ターゲットモデルに対する攻撃で98.68%の成功率を達成した。
関連論文リスト
- Where's the liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated Content [42.68683643671603]
APIアクセスのみを必要とする新しいブラックボックス検出フレームワークを導入する。
画像がモデル自身によって生成された可能性を測定する。
マスクされた画像入力をサポートしないブラックボックスモデルに対して、ターゲットモデル分布に適合するように訓練された費用効率の良い代理モデルを導入する。
論文 参考訳(メタデータ) (2025-05-02T05:11:35Z) - Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - Black-box Membership Inference Attacks against Fine-tuned Diffusion Models [4.294817908693974]
トレーニング済みの画像生成モデルをダウンロードして、さまざまな画像生成タスクのための下流データセットで微調整するユーザが増えています。
本稿では,近年の拡散モデルに適した再構成型メンバシップ推論攻撃フレームワークを提案する。
4つの異なる攻撃シナリオと3種類の攻撃を考えると、このフレームワークは一般的な条件付きジェネレータモデルをターゲットにすることができる。
論文 参考訳(メタデータ) (2023-12-13T15:25:39Z) - Latent Code Augmentation Based on Stable Diffusion for Data-free Substitute Attacks [47.84143701817491]
ブラックボックス代替攻撃では対象モデルのトレーニングデータが利用できないため、近年のスキームではGANを用いて代替モデルのトレーニングデータを生成する。
本稿では,SD(Stable Diffusion)に基づくデータフリー代替攻撃方式を提案する。
論文 参考訳(メタデータ) (2023-07-24T15:10:22Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Enhancing Targeted Attack Transferability via Diversified Weight Pruning [0.3222802562733786]
悪意のある攻撃者は、画像に人間の知覚できないノイズを与えることによって、標的となる敵の例を生成することができる。
クロスモデル転送可能な敵の例では、モデル情報が攻撃者から秘密にされている場合でも、ニューラルネットワークの脆弱性は残る。
近年の研究では, エンサンブル法の有効性が示されている。
論文 参考訳(メタデータ) (2022-08-18T07:25:48Z) - Frequency Domain Model Augmentation for Adversarial Attack [91.36850162147678]
ブラックボックス攻撃の場合、代用モデルと被害者モデルの間のギャップは通常大きい。
そこで本研究では,通常の訓練モデルと防衛モデルの両方に対して,より伝達可能な対角線モデルを構築するための新しいスペクトルシミュレーション攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-12T08:26:21Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z) - Delving into Data: Effectively Substitute Training for Black-box Attack [84.85798059317963]
本稿では,知識盗むプロセスで使用されるデータの分散設計に焦点をあてた,新しい視点代替トレーニングを提案する。
これら2つのモジュールの組み合わせにより、代替モデルとターゲットモデルの一貫性がさらに向上し、敵攻撃の有効性が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-26T07:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。