論文の概要: On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection
- arxiv url: http://arxiv.org/abs/2306.15705v1
- Date: Tue, 27 Jun 2023 02:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:13:27.290560
- Title: On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection
- Title(参考訳): 効率的なデータフリー逆検出のための普遍的逆摂動について
- Authors: Songyang Gao, Shihan Dou, Qi Zhang, Xuanjing Huang, Jin Ma, Ying Shan
- Abstract要約: 本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
- 参考スコア(独自算出の注目度): 55.73320979733527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Detecting adversarial samples that are carefully crafted to fool the model is
a critical step to socially-secure applications. However, existing adversarial
detection methods require access to sufficient training data, which brings
noteworthy concerns regarding privacy leakage and generalizability. In this
work, we validate that the adversarial sample generated by attack algorithms is
strongly related to a specific vector in the high-dimensional inputs. Such
vectors, namely UAPs (Universal Adversarial Perturbations), can be calculated
without original training data. Based on this discovery, we propose a
data-agnostic adversarial detection framework, which induces different
responses between normal and adversarial samples to UAPs. Experimental results
show that our method achieves competitive detection performance on various text
classification tasks, and maintains an equivalent time consumption to normal
inference.
- Abstract(参考訳): モデルを騙すために慎重に作られた敵のサンプルを検出することは、社会的に安全なアプリケーションにとって重要なステップである。
しかし、既存の敵検出手法では十分なトレーニングデータへのアクセスが必要であり、プライバシーの漏洩や一般化可能性に関する重要な懸念が生じている。
本研究では,攻撃アルゴリズムが生成する逆サンプルが,高次元入力中の特定のベクトルと強く関連していることを検証する。
そのようなベクトル、すなわちUAP(Universal Adversarial Perturbations)は、元のトレーニングデータなしで計算できる。
そこで本研究では, 正常標本と敵試料の反応をuapsに誘導する, データ非依存逆検出フレームワークを提案する。
実験の結果,本手法は様々なテキスト分類タスクにおいて競合検出性能を達成し,正規化と同等の時間消費を維持できることがわかった。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Detecting Adversarial Data via Perturbation Forgery [28.637963515748456]
逆検出は、自然データと逆データの間の分布とノイズパターンの相違に基づいて、データフローから逆データを特定し、フィルタリングすることを目的としている。
不均衡および異方性雑音パターンを回避した生成モデルに基づく新しい攻撃
本研究では,ノイズ分布の摂動,スパースマスク生成,擬似対向データ生成を含む摂動フォージェリを提案し,未知の勾配に基づく,生成モデルに基づく,物理的対向攻撃を検出することができる対向検出器を訓練する。
論文 参考訳(メタデータ) (2024-05-25T13:34:16Z) - PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。
本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。
本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文 参考訳(メタデータ) (2024-04-12T21:22:21Z) - Few-Shot Anomaly Detection with Adversarial Loss for Robust Feature
Representations [8.915958745269442]
異常検出は、データセット内の通常のパターンや分布から逸脱したデータポイントを特定することを目的とした、重要で困難なタスクである。
ワンクラス・ワン・モデル手法を用いて様々な手法が提案されているが、これらの手法はメモリ不足や訓練に十分なデータを必要とするといった現実的な問題に直面していることが多い。
本稿では,より堅牢で一般化された特徴表現を得るために,対向訓練損失を統合する数発の異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T09:45:02Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - ATRO: Adversarial Training with a Rejection Option [10.36668157679368]
本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
論文 参考訳(メタデータ) (2020-10-24T14:05:03Z) - FADER: Fast Adversarial Example Rejection [19.305796826768425]
近年の防御は, 異なる層表現における正統な訓練試料からの異常な偏差を検出することにより, 対向的堅牢性を向上させることが示されている。
本稿では,検出に基づく手法を高速化する新しい手法であるFADERを紹介する。
実験では,MNISTデータセットの解析値と比較すると,最大73倍の試作機,CIFAR10の最大50倍の試作機について概説した。
論文 参考訳(メタデータ) (2020-10-18T22:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。