論文の概要: Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data
- arxiv url: http://arxiv.org/abs/2310.06372v2
- Date: Wed, 13 Dec 2023 19:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:10:01.453482
- Title: Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data
- Title(参考訳): 拡散に基づく画像変化を利用した有毒データロバストトレーニング
- Authors: Lukas Struppek, Martin B. Hentschel, Clifton Poth, Dominik
Hintersdorf, Kristian Kersting
- Abstract要約: バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
- 参考スコア(独自算出の注目度): 26.551317580666353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose a serious security threat for training neural networks
as they surreptitiously introduce hidden functionalities into a model. Such
backdoors remain silent during inference on clean inputs, evading detection due
to inconspicuous behavior. However, once a specific trigger pattern appears in
the input data, the backdoor activates, causing the model to execute its
concealed function. Detecting such poisoned samples within vast datasets is
virtually impossible through manual inspection. To address this challenge, we
propose a novel approach that enables model training on potentially poisoned
datasets by utilizing the power of recent diffusion models. Specifically, we
create synthetic variations of all training samples, leveraging the inherent
resilience of diffusion models to potential trigger patterns in the data. By
combining this generative approach with knowledge distillation, we produce
student models that maintain their general performance on the task while
exhibiting robust resistance to backdoor triggers.
- Abstract(参考訳): バックドア攻撃は、モデルに隠れた機能を導入することによって、ニューラルネットワークのトレーニングに深刻なセキュリティ上の脅威をもたらす。
このようなバックドアは、クリーンな入力の推論中に静かであり、目立たない振る舞いによる検出を避ける。
しかし、入力データに特定のトリガーパターンが現れると、バックドアが起動し、モデルがその隠蔽された機能を実行する。
このような有毒なサンプルを膨大なデータセットで検出することは、手動検査によって事実上不可能である。
そこで本研究では,近年の拡散モデルのパワーを活用して,潜在的に有毒なデータセットのモデルトレーニングを可能にする手法を提案する。
具体的には、すべてのトレーニングサンプルの合成的なバリエーションを作成し、データ内の潜在的なトリガパターンに拡散モデルの固有のレジリエンスを活用します。
この生成的アプローチと知識蒸留を組み合わせることで,バックドアトリガーに対する頑健な抵抗を示しながら,タスクの一般的なパフォーマンスを維持する学生モデルを作成する。
関連論文リスト
- Backdoor Defense through Self-Supervised and Generative Learning [0.0]
このようなデータのトレーニングは、選択されたテストサンプルに悪意のある推論を引き起こすバックドアを注入する。
本稿では,自己教師付き表現空間におけるクラスごとの分布生成モデルに基づくアプローチを提案する。
どちらの場合も、クラスごとの生成モデルにより、有毒なデータを検出し、データセットをクリーン化することができます。
論文 参考訳(メタデータ) (2024-09-02T11:40:01Z) - DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。
悪意のある攻撃者は 裏口を注射する 訓練サンプルの一部に毒を盛った
これは、APIを通じて拡散モデルに問い合わせたり、インターネットから直接ダウンロードしたりする、ダウンストリームユーザにとって深刻な脅威となる。
論文 参考訳(メタデータ) (2024-04-01T13:21:05Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Transpose Attack: Stealing Datasets with Bidirectional Training [4.166238443183223]
敵は正統なモデルの下で保護された学習環境からデータセットを抽出できることを示す。
本稿では,感染モデルを検出するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:14:50Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - TOP: Backdoor Detection in Neural Networks via Transferability of
Perturbation [1.52292571922932]
トレーニングデータやサンプルトリガにアクセスせずにトレーニングされたモデルのバックドアを検出することは、重要なオープン問題である。
本稿では,これらのモデルの興味深い性質を同定する: クリーンモデルよりも毒性モデルの方が画像から画像への逆摂動の伝達が容易である。
この機能を使用して、TrojAIベンチマークの有毒モデルと、追加モデルを検出します。
論文 参考訳(メタデータ) (2021-03-18T14:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。