論文の概要: TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets
- arxiv url: http://arxiv.org/abs/2303.05762v1
- Date: Fri, 10 Mar 2023 08:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 15:39:24.952472
- Title: TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets
- Title(参考訳): トロイディフ氏:多目的拡散モデルでトロイの木馬攻撃
- Authors: Weixin Chen, Dawn Song, Bo Li
- Abstract要約: 拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
- 参考スコア(独自算出の注目度): 74.12197473591128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved great success in a range of tasks, such as
image synthesis and molecule design. As such successes hinge on large-scale
training data collected from diverse sources, the trustworthiness of these
collected data is hard to control or audit. In this work, we aim to explore the
vulnerabilities of diffusion models under potential training data manipulations
and try to answer: How hard is it to perform Trojan attacks on well-trained
diffusion models? What are the adversarial targets that such Trojan attacks can
achieve? To answer these questions, we propose an effective Trojan attack
against diffusion models, TrojDiff, which optimizes the Trojan diffusion and
generative processes during training. In particular, we design novel
transitions during the Trojan diffusion process to diffuse adversarial targets
into a biased Gaussian distribution and propose a new parameterization of the
Trojan generative process that leads to an effective training objective for the
attack. In addition, we consider three types of adversarial targets: the
Trojaned diffusion models will always output instances belonging to a certain
class from the in-domain distribution (In-D2D attack), out-of-domain
distribution (Out-D2D-attack), and one specific instance (D2I attack). We
evaluate TrojDiff on CIFAR-10 and CelebA datasets against both DDPM and DDIM
diffusion models. We show that TrojDiff always achieves high attack performance
under different adversarial targets using different types of triggers, while
the performance in benign environments is preserved. The code is available at
https://github.com/chenweixin107/TrojDiff.
- Abstract(参考訳): 拡散モデルは画像合成や分子設計といった様々なタスクで大きな成功を収めている。
このような成功は、さまざまなソースから収集された大規模トレーニングデータにかかっているため、収集されたデータの信頼性は制御や監査が難しい。
本研究では,データ操作の可能性を秘めている拡散モデルの脆弱性を探究し,次のように答える: よく訓練された拡散モデルに対してトロイの木馬攻撃を行うのは,どの程度難しいのか?
このようなトロイの木馬攻撃が達成できる敵標的は何でしょう?
これらの質問に答えるために,トロイの木馬の拡散と生成過程を最適化する拡散モデルであるトロイディフに対する効果的なトロイの木馬攻撃を提案する。
特に, トロイの木馬拡散過程において, 対向対象をバイアス付きガウス分布に拡散させる新たな遷移を設計し, 攻撃の効果的な訓練目標となるトロイの木馬生成過程のパラメータ化を提案する。
さらに、Trojaned拡散モデルでは、ドメイン内分布(In-D2D攻撃)、ドメイン外分布(Out-D2D攻撃)、特定のインスタンス(D2I攻撃)から、常に特定のクラスに属するインスタンスを出力する。
CIFAR-10およびCelebAデータセット上のTrojDiffをDDPMおよびDDIM拡散モデルに対して評価した。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成し,良質な環境での性能は維持されていることを示す。
コードはhttps://github.com/chenweixin107/trojdiffで入手できる。
関連論文リスト
- TrojFlow: Flow Models are Natural Targets for Trojan Attacks [0.8721298363642859]
データにノイズをマッピングする方法として,フローベース生成モデル (FM) が急速に進歩している。
これまでの研究では、DMはトロイの木馬/バックドア攻撃に弱いことが示されている。
我々は、トロイの木馬攻撃によるFMの脆弱性を探索するTrojFlowを提案する。
論文 参考訳(メタデータ) (2024-12-21T07:21:53Z) - UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。
UFIDと呼ばれる拡散モデルに基づくブラックボックス入力レベルのバックドア検出フレームワークを提案する。
本手法は,検出効率と実行時間効率において高い性能を実現する。
論文 参考訳(メタデータ) (2024-04-01T13:21:05Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space [11.93979764176335]
トロイの木馬攻撃は入力データに埋め込まれ、ニューラルネットワークモデルに悪意のある振る舞いをもたらす。
本稿では,VQAに対するインスタンスレベルのマルチモーダルトロイの木馬攻撃を提案する。
提案した攻撃はトロイの木馬のサンプルを数枚注入することで、異なる微調整モデルに効率的に適応できることを実証した。
論文 参考訳(メタデータ) (2023-04-02T03:03:21Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。