論文の概要: Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense
- arxiv url: http://arxiv.org/abs/2304.06919v1
- Date: Fri, 14 Apr 2023 04:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:42:57.191228
- Title: Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense
- Title(参考訳): 解釈性は一種の安全性である:敵防御のためのインタプリタベースのアンサンブル
- Authors: Jingyuan Wang, Yufan Wu, Mingxuan Li, Xin Lin, Junjie Wu, Chao Li
- Abstract要約: 我々は,強固な防御敵に対するX-Ensembleと呼ばれるインタプリタベースのアンサンブルフレームワークを提案する。
X-エンサンブルはランダムフォレスト(RF)モデルを用いて、準検出器をアンサンブル検出器に結合し、敵のハイブリッド攻撃防御を行う。
- 参考スコア(独自算出の注目度): 28.398901783858005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While having achieved great success in rich real-life applications, deep
neural network (DNN) models have long been criticized for their vulnerability
to adversarial attacks. Tremendous research efforts have been dedicated to
mitigating the threats of adversarial attacks, but the essential trait of
adversarial examples is not yet clear, and most existing methods are yet
vulnerable to hybrid attacks and suffer from counterattacks. In light of this,
in this paper, we first reveal a gradient-based correlation between sensitivity
analysis-based DNN interpreters and the generation process of adversarial
examples, which indicates the Achilles's heel of adversarial attacks and sheds
light on linking together the two long-standing challenges of DNN: fragility
and unexplainability. We then propose an interpreter-based ensemble framework
called X-Ensemble for robust adversary defense. X-Ensemble adopts a novel
detection-rectification process and features in building multiple sub-detectors
and a rectifier upon various types of interpretation information toward target
classifiers. Moreover, X-Ensemble employs the Random Forests (RF) model to
combine sub-detectors into an ensemble detector for adversarial hybrid attacks
defense. The non-differentiable property of RF further makes it a precious
choice against the counterattack of adversaries. Extensive experiments under
various types of state-of-the-art attacks and diverse attack scenarios
demonstrate the advantages of X-Ensemble to competitive baseline methods.
- Abstract(参考訳): リッチなリアルタイムアプリケーションで大きな成功を収めた一方で、ディープニューラルネットワーク(DNN)モデルは、敵の攻撃に対する脆弱性として長年批判されてきた。
敵の攻撃の脅威を緩和するための厳密な研究努力は行われているが、敵の攻撃の本質的な特徴はまだ明らかではなく、既存の手法はハイブリッド攻撃に対して脆弱であり、反撃に苦しめられている。
そこで,本稿では,dnnの認識分析に基づくインタプリタと,アキレスの敵対的攻撃のヒールを表わし,dnnの長年の課題である脆弱性と説明不能の2つを結びつけることに光を当てる,敵対的事例の生成過程との間に,勾配に基づく相関関係を明らかにする。
そこで我々は,X-Ensembleと呼ばれるインタプリタベースのアンサンブル・フレームワークを提案する。
X-Ensembleは、新しい検出補正プロセスを採用し、ターゲット分類器に対する様々な解釈情報に基づいて複数のサブ検出器と整流器を構築する。
さらに、X-EnsembleはRandom Forests(RF)モデルを用いて、準検出器をアンサンブル検出器に組み合わせ、敵のハイブリッド攻撃防御を行う。
さらに、RFの非微分性は、敵の反撃に対して重要な選択となる。
様々な種類の最先端攻撃や多様な攻撃シナリオの下での広範囲な実験は、x-ensembleの競合ベースラインメソッドに対する利点を示している。
関連論文リスト
- Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Towards Adversarial Realism and Robust Learning for IoT Intrusion
Detection and Classification [0.0]
IoT(Internet of Things)は、重大なセキュリティ上の課題に直面している。
敵の攻撃による脅威の増大は、信頼できる防衛戦略の必要性を回復させる。
本研究は、敵のサイバー攻撃事例が現実的であるために必要な制約の種類について述べる。
論文 参考訳(メタデータ) (2023-01-30T18:00:28Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。