論文の概要: Can Adversarial Examples Be Parsed to Reveal Victim Model Information?
- arxiv url: http://arxiv.org/abs/2303.07474v3
- Date: Sun, 14 Jul 2024 05:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:28:16.747194
- Title: Can Adversarial Examples Be Parsed to Reveal Victim Model Information?
- Title(参考訳): 被害者モデル情報に逆例を適用できるか?
- Authors: Yuguang Yao, Jiancheng Liu, Yifan Gong, Xiaoming Liu, Yanzhi Wang, Xue Lin, Sijia Liu,
- Abstract要約: 本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
- 参考スコア(独自算出の注目度): 62.814751479749695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous adversarial attack methods have been developed to generate imperceptible image perturbations that can cause erroneous predictions of state-of-the-art machine learning (ML) models, in particular, deep neural networks (DNNs). Despite intense research on adversarial attacks, little effort was made to uncover 'arcana' carried in adversarial attacks. In this work, we ask whether it is possible to infer data-agnostic victim model (VM) information (i.e., characteristics of the ML model or DNN used to generate adversarial attacks) from data-specific adversarial instances. We call this 'model parsing of adversarial attacks' - a task to uncover 'arcana' in terms of the concealed VM information in attacks. We approach model parsing via supervised learning, which correctly assigns classes of VM's model attributes (in terms of architecture type, kernel size, activation function, and weight sparsity) to an attack instance generated from this VM. We collect a dataset of adversarial attacks across 7 attack types generated from 135 victim models (configured by 5 architecture types, 3 kernel size setups, 3 activation function types, and 3 weight sparsity ratios). We show that a simple, supervised model parsing network (MPN) is able to infer VM attributes from unseen adversarial attacks if their attack settings are consistent with the training setting (i.e., in-distribution generalization assessment). We also provide extensive experiments to justify the feasibility of VM parsing from adversarial attacks, and the influence of training and evaluation factors in the parsing performance (e.g., generalization challenge raised in out-of-distribution evaluation). We further demonstrate how the proposed MPN can be used to uncover the source VM attributes from transfer attacks, and shed light on a potential connection between model parsing and attack transferability.
- Abstract(参考訳): 最先端機械学習(ML)モデル、特にディープニューラルネットワーク(DNN)の誤予測を引き起こす可能性のある、知覚不能なイメージ摂動を生成するために、多くの逆襲攻撃法が開発されている。
敵の攻撃について猛烈な研究が行われたが、敵の攻撃に携わる「アルカナ」を明らかにする努力はほとんどなされなかった。
本研究では、データ固有の敵インスタンスから、データに依存しない被害者モデル(VM)情報(MLモデルやDNNの特徴)を推測できるかどうかを問う。
これは、攻撃中に隠されたVM情報の観点から'arcana'を明らかにするタスクです。
我々は,VMのモデル属性のクラス(アーキテクチャタイプ,カーネルサイズ,アクティベーション関数,重量空間)を,このVMから生成された攻撃インスタンスに正しく割り当てる,教師付き学習によるモデル解析にアプローチする。
135の犠牲者モデル(5つのアーキテクチャタイプ、3つのカーネルサイズ設定、3つのアクティベーション関数タイプ、3つのウェイト空間比)から生成された7種類の攻撃タイプに対する敵攻撃のデータセットを収集します。
本稿では, 単純な教師付きモデル解析ネットワーク(MPN)が, 攻撃設定がトレーニング設定(即ち, 分布内一般化評価)と一致している場合, 未知の敵攻撃からVM属性を推測できることを示す。
また、敵攻撃によるVM解析の実現可能性、および解析性能におけるトレーニングおよび評価要因の影響を正当化するための広範な実験を行った(例えば、アウト・オブ・ディストリビューション評価で提起された一般化チャレンジ)。
さらに、提案したMPNを用いて、トランスファー攻撃からソースVM属性を解明し、モデル解析とアタック転送可能性の間の潜在的な接続に光を当てる方法について述べる。
関連論文リスト
- Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Your Attack Is Too DUMB: Formalizing Attacker Scenarios for Adversarial
Transferability [17.899587145780817]
侵入攻撃は機械学習モデルに対する脅威であり、敵は悪意のあるサンプルを注入することで分類に影響を与えようとする。
本研究では,サロゲートモデルと被害者モデルの訓練条件が異なる場合の回避攻撃が転送に失敗するかどうかを解析できるDUMB攻撃モデルを提案する。
14件の異なる攻撃に対して13Kの試験を行った結果,サロゲートモデルを用いた移動可能な攻撃範囲の新たな発見が得られた。
論文 参考訳(メタデータ) (2023-06-27T10:21:27Z) - A Plot is Worth a Thousand Words: Model Information Stealing Attacks via
Scientific Plots [14.998272283348152]
敵がターゲットのMLモデルの出力を利用してモデルの情報を盗むことはよく知られている。
我々は、モデル情報盗難攻撃、すなわちモデルの科学的プロットのための新しいサイドチャネルを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:57:34Z) - Holistic risk assessment of inference attacks in machine learning [4.493526120297708]
本稿では,機械学習モデルに対する異なる推論攻撃の全体的リスク評価を行う。
AlexNet、ResNet18、Simple CNNを含む3つのモデルアーキテクチャを使用して、合計12のターゲットモデルが4つのデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2022-12-15T08:14:18Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Adversarial Attack Attribution: Discovering Attributable Signals in
Adversarial ML Attacks [0.7883722807601676]
自動運転車やML-as-a-serviceのような生産システムでさえ、逆の入力の影響を受けやすい。
摂動入力は、攻撃を生成するために使われるメソッドに起因できるだろうか?
敵対攻撃属性の概念を導入し、敵対攻撃における攻撃可能信号の発見可能性を調べるための単純な教師付き学習実験フレームワークを作成する。
論文 参考訳(メタデータ) (2021-01-08T08:16:41Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。