論文の概要: Mitigating Adversarial Attacks by Distributing Different Copies to
Different Users
- arxiv url: http://arxiv.org/abs/2111.15160v3
- Date: Fri, 26 May 2023 06:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:36:47.360488
- Title: Mitigating Adversarial Attacks by Distributing Different Copies to
Different Users
- Title(参考訳): 異なるコピーを異なるユーザに提供することで敵攻撃を緩和する
- Authors: Jiyi Zhang, Han Fang, Wesley Joon-Wie Tann, Ke Xu, Chengfang Fang,
Ee-Chien Chang
- Abstract要約: 悪意のあるバイヤーが別のバイヤーを攻撃しようとする場合、モデルが複数のバイヤーに分散されるシナリオを考察する。
本稿では,モデルのパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。
実験により、高い分類精度を維持しながら、書き換えは攻撃を著しく軽減できることが示された。
- 参考スコア(独自算出の注目度): 26.301784771724954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are vulnerable to adversarial attacks. In this paper,
we consider the scenario where a model is distributed to multiple buyers, among
which a malicious buyer attempts to attack another buyer. The malicious buyer
probes its copy of the model to search for adversarial samples and then
presents the found samples to the victim's copy of the model in order to
replicate the attack. We point out that by distributing different copies of the
model to different buyers, we can mitigate the attack such that adversarial
samples found on one copy would not work on another copy. We observed that
training a model with different randomness indeed mitigates such replication to
a certain degree. However, there is no guarantee and retraining is
computationally expensive. A number of works extended the retraining method to
enhance the differences among models. However, a very limited number of models
can be produced using such methods and the computational cost becomes even
higher. Therefore, we propose a flexible parameter rewriting method that
directly modifies the model's parameters. This method does not require
additional training and is able to generate a large number of copies in a more
controllable manner, where each copy induces different adversarial regions.
Experimentation studies show that rewriting can significantly mitigate the
attacks while retaining high classification accuracy. For instance, on GTSRB
dataset with respect to Hop Skip Jump attack, using attractor-based rewriter
can reduce the success rate of replicating the attack to 0.5% while
independently training copies with different randomness can reduce the success
rate to 6.5%. From this study, we believe that there are many further
directions worth exploring.
- Abstract(参考訳): 機械学習モデルは敵の攻撃に弱い。
本稿では,悪質な買い手が他の買い手を攻撃しようとする複数の買い手に対してモデルを配布するシナリオについて考察する。
悪意のあるバイヤーは、モデルのコピーをプローブして、敵のサンプルを検索し、見つかったサンプルを被害者のモデルのコピーに提示して、攻撃を再現する。
モデルの異なるコピーを別の購入者に配布することで、あるコピーで見つかった敵のサンプルが別のコピーでは動作しないような攻撃を緩和できる、と指摘する。
異なるランダム性を持つモデルのトレーニングは、実際にそのような複製をある程度軽減する。
しかし、保証はなく、再訓練は計算コストがかかる。
モデル間の差異を高めるために、多くの研究が再訓練手法を拡張した。
しかし、そのような手法で非常に限られた数のモデルが作成でき、計算コストはさらに高くなる。
そこで本研究では,モデルパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。
この方法は追加の訓練を必要とせず、より制御可能な方法で多数のコピーを生成することができ、各コピーは異なる敵領域を誘導する。
実験により、リライトは高い分類精度を維持しながら攻撃を著しく軽減できることが示された。
例えば、ホップスキップジャンプ攻撃に関するGTSRBデータセットでは、アトラクタベースのリライターを使用すると、攻撃を再現する成功率が0.5%に減少し、ランダム性の異なるコピーを個別にトレーニングすると、成功率が6.5%に低下する。
この研究から、さらに多くの道のりを探索する価値があると信じている。
関連論文リスト
- Membership Inference Attacks on Diffusion Models via Quantile Regression [30.30033625685376]
我々は,家族関係推論(MI)攻撃による拡散モデルのプライバシー上の脆弱性を実証する。
提案したMI攻撃は、トレーニングに使用されていない例における再構成損失の分布を予測(定量化)する量子レグレッションモデルを学習する。
我々の攻撃は従来の最先端攻撃よりも優れており、計算コストは著しく低い。
論文 参考訳(メタデータ) (2023-12-08T16:21:24Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z) - Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion
Attacks [24.266782496653203]
既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースのリライタを使用してこれを実現している。
これにより、異なるコピーで異なる逆数領域を誘導し、あるコピーで生成された逆数領域のサンプルは、他のコピーでは複製できない。
本稿では,U字曲線で重みを導出するアダプティブ・アトラクタを用いて,不足点をカバーすることを提案する。
論文 参考訳(メタデータ) (2023-06-02T09:46:54Z) - Tracing the Origin of Adversarial Attack for Forensic Investigation and
Deterrence [26.301784771724954]
ディープニューラルネットワークは敵の攻撃に弱い。
本稿では,攻撃を追跡・特定したい研究者の役割について述べる。
本稿では,2段階の分離トレースフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-31T01:38:02Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - An Efficient Subpopulation-based Membership Inference Attack [11.172550334631921]
我々は、数百のシャドウモデルを訓練する必要のない、根本的に異なるMIアタックアプローチを導入する。
我々は、トレーニングコストを大幅に削減しつつ、最先端の会員推定精度を達成する。
論文 参考訳(メタデータ) (2022-03-04T00:52:06Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial examples are useful too! [47.64219291655723]
モデルがバックドア攻撃を受けたかどうかを判断する新しい手法を提案する。
その考え方は、FGSMのような従来の攻撃を用いて、標的または未標的の敵の例を生成することである。
障害のある地域を視覚的に見つけて、攻撃を露呈することができる。
論文 参考訳(メタデータ) (2020-05-13T01:38:56Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。