論文の概要: Mitigating Adversarial Attacks by Distributing Different Copies to
Different Users
- arxiv url: http://arxiv.org/abs/2111.15160v1
- Date: Tue, 30 Nov 2021 06:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:19:30.184878
- Title: Mitigating Adversarial Attacks by Distributing Different Copies to
Different Users
- Title(参考訳): 異なるコピーを異なるユーザに提供することで敵攻撃を緩和する
- Authors: Jiyi Zhang, Wesley Joon-Wie Tann, Ee-Chien Chang
- Abstract要約: モデルが複数のユーザに配布されるシナリオを考察する。
悪意のあるユーザは、モデルのコピーをプローブして、敵のサンプルを検索し、見つかったサンプルを被害者のモデルに提示して、攻撃を再現する。
本稿では,モデルのパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。
- 参考スコア(独自算出の注目度): 9.924083358178242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are vulnerable to adversarial attacks. In this paper,
we consider the scenario where a model is to be distributed to multiple users,
among which a malicious user attempts to attack another user. The malicious
user probes its copy of the model to search for adversarial samples and then
presents the found samples to the victim's model in order to replicate the
attack. We point out that by distributing different copies of the model to
different users, we can mitigate the attack such that adversarial samples found
on one copy would not work on another copy. We first observed that training a
model with different randomness indeed mitigates such replication to certain
degree. However, there is no guarantee and retraining is computationally
expensive. Next, we propose a flexible parameter rewriting method that directly
modifies the model's parameters. This method does not require additional
training and is able to induce different sets of adversarial samples in
different copies in a more controllable manner. Experimentation studies show
that our approach can significantly mitigate the attacks while retaining high
classification accuracy. From this study, we believe that there are many
further directions worth exploring.
- Abstract(参考訳): 機械学習モデルは敵の攻撃に弱い。
本稿では,モデルが複数のユーザに対して配布され,悪意のあるユーザが他のユーザを攻撃しようとするシナリオについて考察する。
悪意のあるユーザは、モデルのコピーをプローブして、敵のサンプルを検索し、見つかったサンプルを被害者のモデルに提示して、攻撃を再現する。
モデルの異なるコピーを異なるユーザに配布することで、あるコピーで見つかった敵のサンプルが別のコピーでは動作しないような攻撃を緩和できる、と指摘する。
ランダム性が異なるモデルのトレーニングは、実際にそのような複製をある程度軽減する。
しかし、保証はなく、再訓練は計算コストがかかる。
次に,モデルのパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。
この方法は追加の訓練を必要とせず、より制御可能な方法で異なるコピーで異なる逆サンプルセットを誘導することができる。
実験により,高い分類精度を維持しながら攻撃を著しく軽減できることが示された。
この研究から、さらに多くの道のりを探索する価値があると信じている。
関連論文リスト
- Membership Inference Attacks on Diffusion Models via Quantile Regression [30.30033625685376]
我々は,家族関係推論(MI)攻撃による拡散モデルのプライバシー上の脆弱性を実証する。
提案したMI攻撃は、トレーニングに使用されていない例における再構成損失の分布を予測(定量化)する量子レグレッションモデルを学習する。
我々の攻撃は従来の最先端攻撃よりも優れており、計算コストは著しく低い。
論文 参考訳(メタデータ) (2023-12-08T16:21:24Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z) - Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion
Attacks [24.266782496653203]
既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースのリライタを使用してこれを実現している。
これにより、異なるコピーで異なる逆数領域を誘導し、あるコピーで生成された逆数領域のサンプルは、他のコピーでは複製できない。
本稿では,U字曲線で重みを導出するアダプティブ・アトラクタを用いて,不足点をカバーすることを提案する。
論文 参考訳(メタデータ) (2023-06-02T09:46:54Z) - Tracing the Origin of Adversarial Attack for Forensic Investigation and
Deterrence [26.301784771724954]
ディープニューラルネットワークは敵の攻撃に弱い。
本稿では,攻撃を追跡・特定したい研究者の役割について述べる。
本稿では,2段階の分離トレースフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-31T01:38:02Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - An Efficient Subpopulation-based Membership Inference Attack [11.172550334631921]
我々は、数百のシャドウモデルを訓練する必要のない、根本的に異なるMIアタックアプローチを導入する。
我々は、トレーニングコストを大幅に削減しつつ、最先端の会員推定精度を達成する。
論文 参考訳(メタデータ) (2022-03-04T00:52:06Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial examples are useful too! [47.64219291655723]
モデルがバックドア攻撃を受けたかどうかを判断する新しい手法を提案する。
その考え方は、FGSMのような従来の攻撃を用いて、標的または未標的の敵の例を生成することである。
障害のある地域を視覚的に見つけて、攻撃を露呈することができる。
論文 参考訳(メタデータ) (2020-05-13T01:38:56Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。