論文の概要: Identifying Adversarially Attackable and Robust Samples
- arxiv url: http://arxiv.org/abs/2301.12896v1
- Date: Mon, 30 Jan 2023 13:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:32:20.365927
- Title: Identifying Adversarially Attackable and Robust Samples
- Title(参考訳): 逆攻撃性とロバストサンプルの同定
- Authors: Vyas Raina and Mark Gales
- Abstract要約: 本研究は, サンプル攻撃可能性とロバスト性の概念を導入することで, 敵攻撃に対する新たな視点を提案する。
敵対的攻撃は、ディープラーニングモデルの出力に大きな、望ましくない大きな変化を引き起こす入力に、小さな、知覚不能な摂動を挿入する。
本研究では,未確認対象モデルを対象としたデータセットにおいて,最も攻撃的かつ堅牢なサンプルを検出するためのディープラーニングに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 1.4213973379473654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a novel perspective on adversarial attacks by introducing
the concept of sample attackability and robustness. Adversarial attacks insert
small, imperceptible perturbations to the input that cause large, undesired
changes to the output of deep learning models. Despite extensive research on
generating adversarial attacks and building defense systems, there has been
limited research on understanding adversarial attacks from an input-data
perspective. We propose a deep-learning-based method for detecting the most
attackable and robust samples in an unseen dataset for an unseen target model.
The proposed method is based on a neural network architecture that takes as
input a sample and outputs a measure of attackability or robustness. The
proposed method is evaluated using a range of different models and different
attack methods, and the results demonstrate its effectiveness in detecting the
samples that are most likely to be affected by adversarial attacks.
Understanding sample attackability can have important implications for future
work in sample-selection tasks. For example in active learning, the acquisition
function can be designed to select the most attackable samples, or in
adversarial training, only the most attackable samples are selected for
augmentation.
- Abstract(参考訳): 本研究は,サンプル攻撃性とロバスト性の概念を導入することで,敵対的攻撃に対する新たな視点を提案する。
敵の攻撃は、深層学習モデルの出力に大きく、望ましくない変化を引き起こす入力に小さな、知覚できない摂動を挿入する。
敵意攻撃の生成や防衛システム構築に関する広範な研究にもかかわらず、入力データの観点からの敵意攻撃の理解に関する研究は限られている。
本研究では,未確認対象モデルを対象としたデータセットにおいて,最も攻撃的かつ堅牢なサンプルを検出するディープラーニングに基づく手法を提案する。
提案手法は,サンプルを入力としたニューラルネットワークアーキテクチャに基づいて,攻撃可能性や堅牢性の尺度を出力する。
提案手法は,様々なモデルと異なる攻撃手法を用いて評価し,その効果を敵攻撃の影響を受けやすい試料の検出に有効であることを示す。
サンプル攻撃可能性を理解することは、サンプル選択タスクにおける将来の作業に重要な意味を持つ。
例えば、アクティブラーニングでは、取得関数は最も攻撃可能なサンプルを選択するように設計したり、敵のトレーニングでは、強化のために最も攻撃可能なサンプルのみを選択することができる。
関連論文リスト
- Detecting Adversarial Data via Perturbation Forgery [28.637963515748456]
逆検出は、自然データと逆データの間の分布とノイズパターンの相違に基づいて、データフローから逆データを特定し、フィルタリングすることを目的としている。
不均衡および異方性雑音パターンを回避した生成モデルに基づく新しい攻撃
本研究では,ノイズ分布の摂動,スパースマスク生成,擬似対向データ生成を含む摂動フォージェリを提案し,未知の勾配に基づく,生成モデルに基づく,物理的対向攻撃を検出することができる対向検出器を訓練する。
論文 参考訳(メタデータ) (2024-05-25T13:34:16Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Sample Attackability in Natural Language Adversarial Attacks [1.4213973379473654]
この研究は、NLP攻撃に対するサンプル攻撃可能性/ロバスト性の定義を正式に拡張した。
2つの人気のあるNLPデータセット、アートモデルの4つの状態、および4つの異なるNLP逆攻撃方法の実験。
論文 参考訳(メタデータ) (2023-06-21T06:20:51Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Towards Generating Adversarial Examples on Mixed-type Data [32.41305735919529]
そこで本研究では,M-Attackを用いた攻撃アルゴリズムを提案する。
M-Attackをベースとした攻撃者は、与えられたデータサンプルの数値的特徴と分類的特徴の両方をわずかに摂動させることで、ターゲットの分類モデルの予測を誤解させようとする。
我々の生成した敵の例は潜在的な検出モデルを避けることができるため、攻撃は本当に惨めである。
論文 参考訳(メタデータ) (2022-10-17T20:17:21Z) - Identifying a Training-Set Attack's Target Using Renormalized Influence
Estimation [11.663072799764542]
本研究は、特定のテストインスタンスがトレーニングセットアタックのターゲットであるかどうかを判定するターゲット識別タスクを提案する。
単一の攻撃方法やデータモダリティではなく、各トレーニングインスタンスのモデル予測への貢献度を定量化するインフルエンス推定に基づいて構築する。
論文 参考訳(メタデータ) (2022-01-25T02:36:34Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。