論文の概要: Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense
- arxiv url: http://arxiv.org/abs/2304.06919v1
- Date: Fri, 14 Apr 2023 04:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:42:57.191228
- Title: Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense
- Title(参考訳): 解釈性は一種の安全性である:敵防御のためのインタプリタベースのアンサンブル
- Authors: Jingyuan Wang, Yufan Wu, Mingxuan Li, Xin Lin, Junjie Wu, Chao Li
- Abstract要約: 我々は,強固な防御敵に対するX-Ensembleと呼ばれるインタプリタベースのアンサンブルフレームワークを提案する。
X-エンサンブルはランダムフォレスト(RF)モデルを用いて、準検出器をアンサンブル検出器に結合し、敵のハイブリッド攻撃防御を行う。
- 参考スコア(独自算出の注目度): 28.398901783858005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While having achieved great success in rich real-life applications, deep
neural network (DNN) models have long been criticized for their vulnerability
to adversarial attacks. Tremendous research efforts have been dedicated to
mitigating the threats of adversarial attacks, but the essential trait of
adversarial examples is not yet clear, and most existing methods are yet
vulnerable to hybrid attacks and suffer from counterattacks. In light of this,
in this paper, we first reveal a gradient-based correlation between sensitivity
analysis-based DNN interpreters and the generation process of adversarial
examples, which indicates the Achilles's heel of adversarial attacks and sheds
light on linking together the two long-standing challenges of DNN: fragility
and unexplainability. We then propose an interpreter-based ensemble framework
called X-Ensemble for robust adversary defense. X-Ensemble adopts a novel
detection-rectification process and features in building multiple sub-detectors
and a rectifier upon various types of interpretation information toward target
classifiers. Moreover, X-Ensemble employs the Random Forests (RF) model to
combine sub-detectors into an ensemble detector for adversarial hybrid attacks
defense. The non-differentiable property of RF further makes it a precious
choice against the counterattack of adversaries. Extensive experiments under
various types of state-of-the-art attacks and diverse attack scenarios
demonstrate the advantages of X-Ensemble to competitive baseline methods.
- Abstract(参考訳): リッチなリアルタイムアプリケーションで大きな成功を収めた一方で、ディープニューラルネットワーク(DNN)モデルは、敵の攻撃に対する脆弱性として長年批判されてきた。
敵の攻撃の脅威を緩和するための厳密な研究努力は行われているが、敵の攻撃の本質的な特徴はまだ明らかではなく、既存の手法はハイブリッド攻撃に対して脆弱であり、反撃に苦しめられている。
そこで,本稿では,dnnの認識分析に基づくインタプリタと,アキレスの敵対的攻撃のヒールを表わし,dnnの長年の課題である脆弱性と説明不能の2つを結びつけることに光を当てる,敵対的事例の生成過程との間に,勾配に基づく相関関係を明らかにする。
そこで我々は,X-Ensembleと呼ばれるインタプリタベースのアンサンブル・フレームワークを提案する。
X-Ensembleは、新しい検出補正プロセスを採用し、ターゲット分類器に対する様々な解釈情報に基づいて複数のサブ検出器と整流器を構築する。
さらに、X-EnsembleはRandom Forests(RF)モデルを用いて、準検出器をアンサンブル検出器に組み合わせ、敵のハイブリッド攻撃防御を行う。
さらに、RFの非微分性は、敵の反撃に対して重要な選択となる。
様々な種類の最先端攻撃や多様な攻撃シナリオの下での広範囲な実験は、x-ensembleの競合ベースラインメソッドに対する利点を示している。
関連論文リスト
- Fooling the Textual Fooler via Randomizing Latent Representations [14.464967809710425]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Towards Adversarial Realism and Robust Learning for IoT Intrusion
Detection and Classification [0.0]
IoT(Internet of Things)は、重大なセキュリティ上の課題に直面している。
敵の攻撃による脅威の増大は、信頼できる防衛戦略の必要性を回復させる。
本研究は、敵のサイバー攻撃事例が現実的であるために必要な制約の種類について述べる。
論文 参考訳(メタデータ) (2023-01-30T18:00:28Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Illusory Attacks: Detectability Matters in Adversarial Attacks on
Sequential Decision-Makers [74.8408990716076]
既存の強化学習エージェントに対する観測空間攻撃は共通の弱点を有することを示す。
提案手法は, 有効かつ統計的に検出不可能な, 逐次的意思決定者に対する新たな攻撃形態である完全照準攻撃を導入する。
従来の攻撃と比較すると、R攻撃は自動で検出するのがかなり難しいことが実証されている。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - TREATED:Towards Universal Defense against Textual Adversarial Attacks [28.454310179377302]
本稿では,様々な摂動レベルの攻撃に対して,仮定なしに防御できる汎用的対向検出手法であるTREATEDを提案する。
3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-13T03:31:20Z) - Searching for an Effective Defender: Benchmarking Defense against
Adversarial Word Substitution [83.84968082791444]
ディープニューラルネットワークは、意図的に構築された敵の例に対して脆弱である。
ニューラルNLPモデルに対する敵対的単語置換攻撃を防御する様々な方法が提案されている。
論文 参考訳(メタデータ) (2021-08-29T08:11:36Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。