論文の概要: Prompting the Unseen: Detecting Hidden Backdoors in Black-Box Models
- arxiv url: http://arxiv.org/abs/2411.09540v1
- Date: Thu, 14 Nov 2024 15:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:36.985747
- Title: Prompting the Unseen: Detecting Hidden Backdoors in Black-Box Models
- Title(参考訳): 隠されたバックドアをブラックボックスのモデルで検出する(動画あり)
- Authors: Zi-Xuan Huang, Jia-Wei Chen, Zhi-Peng Zhang, Chia-Mu Yu,
- Abstract要約: ビジュアルプロンプト(VP)は、ソースドメインタスクをターゲットとした、よく訓練された凍結モデルに適応する。
textscBPromは、不審なモデルのバックドアを特定するブラックボックスモデルレベルの検出方法である。
- 参考スコア(独自算出の注目度): 26.918410899715735
- License:
- Abstract: Visual prompting (VP) is a new technique that adapts well-trained frozen models for source domain tasks to target domain tasks. This study examines VP's benefits for black-box model-level backdoor detection. The visual prompt in VP maps class subspaces between source and target domains. We identify a misalignment, termed class subspace inconsistency, between clean and poisoned datasets. Based on this, we introduce \textsc{BProm}, a black-box model-level detection method to identify backdoors in suspicious models, if any. \textsc{BProm} leverages the low classification accuracy of prompted models when backdoors are present. Extensive experiments confirm \textsc{BProm}'s effectiveness.
- Abstract(参考訳): ビジュアルプロンプト(VP)は、ソースドメインタスクによく訓練された凍結モデルを適用してドメインタスクをターゲットとする新しいテクニックである。
本研究では,ブラックボックスモデルレベルのバックドア検出におけるVPのメリットについて検討する。
VPのビジュアルプロンプトは、ソースとターゲットドメインの間のクラスサブスペースをマップする。
クリーンなデータセットと有毒なデータセットの間に、不整合(class subspace inconsistency)と呼ばれる不整合を識別する。
これに基づいて、疑わしいモデルのバックドアを識別するブラックボックスモデルレベルの検出法である \textsc{BProm} を導入する。
\textsc{BProm} はバックドアが存在する場合のプロンプトモデルの分類精度を低くする。
広範囲な実験により \textsc{BProm} の有効性が確認された。
関連論文リスト
- UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models [19.46962670935554]
拡散モデルはバックドア攻撃に弱い。
悪意のある攻撃者は 裏口を注射する 訓練サンプルの一部に毒を盛った
これは、APIを通じて拡散モデルに問い合わせたり、インターネットから直接ダウンロードしたりする、ダウンストリームユーザにとって深刻な脅威となる。
論文 参考訳(メタデータ) (2024-04-01T13:21:05Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - XGBD: Explanation-Guided Graph Backdoor Detection [21.918945251903523]
バックドア攻撃は、グラフ学習モデルに重大なセキュリティリスクをもたらす。
トポロジ情報を活用するために,説明誘導型バックドア検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T17:10:23Z) - DREAM: Domain-free Reverse Engineering Attributes of Black-box Model [51.37041886352823]
ブラックボックス対象モデルの属性をドメインに依存しないリバースエンジニアリングの新しい問題を提案する。
対象のブラックボックスモデルの属性を未知のトレーニングデータで推測するために,ドメインに依存しないモデルを学ぶ。
論文 参考訳(メタデータ) (2023-07-20T16:25:58Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - Training set cleansing of backdoor poisoning by self-supervised
representation learning [0.0]
バックドアまたはトロイの木馬攻撃は、ディープニューラルネットワーク(DNN)に対するデータ中毒攻撃の重要なタイプである
教師付きトレーニングは, バックドアパターンと関連するターゲットクラスとの間に, 通常の特徴と真の起源のクラスとの間により強い関連性を持つことが示唆された。
そこで本研究では,教師なし表現学習を用いて,バックドアポゾンによるトレーニングサンプルの強調を回避し,同じクラスのサンプルに類似した特徴埋め込みを学習することを提案する。
論文 参考訳(メタデータ) (2022-10-19T03:29:58Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。