論文の概要: BAARD: Blocking Adversarial Examples by Testing for Applicability,
Reliability and Decidability
- arxiv url: http://arxiv.org/abs/2105.00495v2
- Date: Wed, 13 Sep 2023 19:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 20:10:03.655098
- Title: BAARD: Blocking Adversarial Examples by Testing for Applicability,
Reliability and Decidability
- Title(参考訳): BAARD: 適用性、信頼性、決定性をテストすることで、敵の例をブロックする
- Authors: Xinglong Chang, Katharina Dost, Kaiqi Zhao, Ambra Demontis, Fabio
Roli, Gill Dobbie, J\"org Wicker
- Abstract要約: 敵防衛は、機械学習モデルを敵攻撃から保護するが、しばしばある種類のモデルや攻撃に適合する。
ケミノフォマティクスにおける応用可能性ドメインの概念から着想を得た。
本稿では,グローバルかつローカルにインプットをチェックする,シンプルで堅牢な3段階データ駆動フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.079529913120593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adversarial defenses protect machine learning models from adversarial
attacks, but are often tailored to one type of model or attack. The lack of
information on unknown potential attacks makes detecting adversarial examples
challenging. Additionally, attackers do not need to follow the rules made by
the defender. To address this problem, we take inspiration from the concept of
Applicability Domain in cheminformatics. Cheminformatics models struggle to
make accurate predictions because only a limited number of compounds are known
and available for training. Applicability Domain defines a domain based on the
known compounds and rejects any unknown compound that falls outside the domain.
Similarly, adversarial examples start as harmless inputs, but can be
manipulated to evade reliable classification by moving outside the domain of
the classifier. We are the first to identify the similarity between
Applicability Domain and adversarial detection. Instead of focusing on unknown
attacks, we focus on what is known, the training data. We propose a simple yet
robust triple-stage data-driven framework that checks the input globally and
locally, and confirms that they are coherent with the model's output. This
framework can be applied to any classification model and is not limited to
specific attacks. We demonstrate these three stages work as one unit,
effectively detecting various attacks, even for a white-box scenario.
- Abstract(参考訳): 敵防衛は、機械学習モデルを敵攻撃から保護するが、しばしばある種類のモデルや攻撃に適合する。
未知の潜在的な攻撃に関する情報の欠如は、敵の事例の検出を困難にする。
さらに、攻撃者はディフェンダーによるルールに従う必要はない。
この問題に対処するため、ケミノフォマティクスにおける応用可能性ドメインの概念から着想を得た。
ケミンフォマティクスモデルは、限られた数の化合物のみが知られ、訓練に利用できるため、正確な予測を行うのに苦労する。
適用性ドメイン(applicability domain)は既知の化合物に基づくドメインを定義し、ドメイン外にある未知の化合物を拒絶する。
同様に、逆例は無害な入力として始まるが、分類器の領域の外に移動して信頼できる分類を避けるために操作することができる。
適用可能性ドメインと敵検出の類似性を最初に特定する。
未知の攻撃に注目するのではなく、既知のトレーニングデータに注目します。
入力をグローバルおよびローカルにチェックし,モデルの出力に一貫性があることを確認する,シンプルかつ堅牢な3段階データ駆動フレームワークを提案する。
このフレームワークはどの分類モデルにも適用でき、特定の攻撃に限定されない。
これら3つのステージを1つのユニットとして動作させ,ホワイトボックスのシナリオであっても,さまざまな攻撃を効果的に検出する。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - SoK: Analyzing Adversarial Examples: A Framework to Study Adversary
Knowledge [34.39273915926214]
逆の例は、誤分類を引き起こす機械学習モデルに対する悪意のある入力である。
画像分類領域に焦点をあて、秩序理論における作業にインスパイアされた敵の知識を研究するための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2024-02-22T19:44:19Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning
Few-Shot Meta-Learners [28.468089304148453]
これにより、システムの学習アルゴリズムを騙すような、衝突する入力セットを作れます。
ホワイトボックス環境では、これらの攻撃は非常に成功しており、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示す。
攻撃による「過度な対応」と、攻撃が生成されたモデルと攻撃が転送されたモデルとのミスマッチという2つの仮説を探索する。
論文 参考訳(メタデータ) (2022-11-23T14:55:44Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。