論文の概要: On the Efficacy of Metrics to Describe Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2301.13028v1
- Date: Mon, 30 Jan 2023 16:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:54:50.078951
- Title: On the Efficacy of Metrics to Describe Adversarial Attacks
- Title(参考訳): 敵攻撃を記述するためのメトリクスの有効性について
- Authors: Tommaso Puccetti, Tommaso Zoppi, Andrea Ceccarelli
- Abstract要約: 敵の防御は、敵の攻撃を許容する能力によって自然に評価される。
防御をテストするために、様々な敵攻撃が作成され、通常は回避能力とL0、L1、L2、Linfノルムの観点から記述される。
本研究は, 避難能力とLノルムが, 代表的な攻撃群に対する防御試験を行ったと主張する上で, 最も効果的な情報であるかどうかを問うものである。
- 参考スコア(独自算出の注目度): 3.867363075280544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial defenses are naturally evaluated on their ability to tolerate
adversarial attacks. To test defenses, diverse adversarial attacks are crafted,
that are usually described in terms of their evading capability and the L0, L1,
L2, and Linf norms. We question if the evading capability and L-norms are the
most effective information to claim that defenses have been tested against a
representative attack set. To this extent, we select image quality metrics from
the state of the art and search correlations between image perturbation and
detectability. We observe that computing L-norms alone is rarely the preferable
solution. We observe a strong correlation between the identified metrics
computed on an adversarial image and the output of a detector on such an image,
to the extent that they can predict the response of a detector with
approximately 0.94 accuracy. Further, we observe that metrics can classify
attacks based on similar perturbations and similar detectability. This suggests
a possible review of the approach to evaluate detectors, where additional
metrics are included to assure that a representative attack dataset is
selected.
- Abstract(参考訳): 敵の防御は、敵の攻撃を許容する能力によって自然に評価される。
防御をテストするために、様々な敵攻撃が作成され、通常は回避能力とL0、L1、L2、Linfノルムの観点から記述される。
防犯能力とLノルムが、代表的攻撃セットに対して防御がテストされたと主張する上で、最も効果的な情報であるかどうかを問う。
そこで我々は,画像の摂動と検出可能性の相関関係から,画像品質の指標を選択する。
L-ノルムのみの計算が好ましい解となることは滅多にない。
対向画像上で計算された同定された指標とそのような画像上での検出器の出力との間には強い相関関係が見られ、約0.94精度で検出器の応答を予測することができる。
さらに,類似した摂動と類似した検出可能性に基づいて,メトリクスが攻撃を分類できることを観察した。
これは検知器を評価するアプローチの見直しの可能性を示しており、代表的な攻撃データセットが選択されていることを保証するために追加のメトリクスが含まれている。
関連論文リスト
- Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Identifying Adversarially Attackable and Robust Samples [1.4213973379473654]
アドリアックは、入力サンプルに小さな、知覚不能な摂動を挿入し、ディープラーニングモデルの出力に大きな、望ましくない変化を引き起こす。
本研究は, 対人攻撃に最も影響を受けやすいサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。
本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを識別するディープラーニングベースの検出器を提案する。
論文 参考訳(メタデータ) (2023-01-30T13:58:14Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Illusory Attacks: Detectability Matters in Adversarial Attacks on
Sequential Decision-Makers [74.8408990716076]
既存の強化学習エージェントに対する観測空間攻撃は共通の弱点を有することを示す。
提案手法は, 有効かつ統計的に検出不可能な, 逐次的意思決定者に対する新たな攻撃形態である完全照準攻撃を導入する。
従来の攻撃と比較すると、R攻撃は自動で検出するのがかなり難しいことが実証されている。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Attack-Agnostic Adversarial Detection [13.268960384729088]
本稿では,2つの側面において,敵対的不可知論による統計的偏差を定量化する。
本手法は, CIFAR10, CIFAR100, SVHNでそれぞれ94.9%, 89.7%, 94.6%のROC AUCを達成でき, 攻撃のほとんどにおいて敵の例で訓練した対向検出器と同等の性能を有することを示す。
論文 参考訳(メタデータ) (2022-06-01T13:41:40Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Evaluation of Neural Networks Defenses and Attacks using NDCG and
Reciprocal Rank Metrics [6.6389732792316]
分類タスクにおけるニューラルネットワークの出力に対する攻撃効果、防衛効果の回復効果を特に測定するために設計された2つの指標を示す。
正規化された累積ゲインと、情報検索文献で使用される相互ランクの指標に着想を得て、ニューラルネットワーク予測を結果のランクリストとして扱う。
一般的な分類指標と比較すると,提案指標は優れた情報的・独特性を示す。
論文 参考訳(メタデータ) (2022-01-10T12:54:45Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。