論文の概要: Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion
Attacks
- arxiv url: http://arxiv.org/abs/2306.01400v1
- Date: Fri, 2 Jun 2023 09:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:55:44.002812
- Title: Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion
Attacks
- Title(参考訳): Adaptive Attractors: ML敵の衝突攻撃に対する防御戦略
- Authors: Jiyi Zhang, Han Fang, Ee-Chien Chang
- Abstract要約: 既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースのリライタを使用してこれを実現している。
これにより、異なるコピーで異なる逆数領域を誘導し、あるコピーで生成された逆数領域のサンプルは、他のコピーでは複製できない。
本稿では,U字曲線で重みを導出するアダプティブ・アトラクタを用いて,不足点をカバーすることを提案する。
- 参考スコア(独自算出の注目度): 24.266782496653203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the seller-buyer setting on machine learning models, the seller generates
different copies based on the original model and distributes them to different
buyers, such that adversarial samples generated on one buyer's copy would
likely not work on other copies. A known approach achieves this using
attractor-based rewriter which injects different attractors to different
copies. This induces different adversarial regions in different copies, making
adversarial samples generated on one copy not replicable on others. In this
paper, we focus on a scenario where multiple malicious buyers collude to
attack. We first give two formulations and conduct empirical studies to analyze
effectiveness of collusion attack under different assumptions on the attacker's
capabilities and properties of the attractors. We observe that existing
attractor-based methods do not effectively mislead the colluders in the sense
that adversarial samples found are influenced more by the original model
instead of the attractors as number of colluders increases. Based on this
observation, we propose using adaptive attractors whose weight is guided by a
U-shape curve to cover the shortfalls. Experimentation results show that when
using our approach, the attack success rate of a collusion attack converges to
around 15% even when lots of copies are applied for collusion. In contrast,
when using the existing attractor-based rewriter with fixed weight, the attack
success rate increases linearly with the number of copies used for collusion.
- Abstract(参考訳): 機械学習モデルに基づく売り手購入設定では、売り手は元のモデルに基づいて異なるコピーを生成し、それを別の購入者に配布する。
既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースの書き換え器を使用してこれを実現している。
これは異なるコピーで異なる敵領域を誘導し、あるコピーで生成された敵のサンプルは他のコピーでは複製できない。
本稿では,複数の悪意のある買い手が衝突するシナリオに注目した。
まず、まず2つの定式化を行い、攻撃者の能力と誘引者の特性に異なる仮定で衝突攻撃の有効性を解析するための実証的研究を行った。
我々は,既存のアトラクタに基づく手法が,コローダの数が増加するにつれて,アトラクタではなく,元のモデルから見出されたサンプルの方が影響を受けやすいという意味で,コローダを効果的に誤解させるものではないことを観察した。
そこで本研究では,U字曲線で重みを導出するアダプティブアトラクタを用いて,不足点をカバーすることを提案する。
実験の結果,共謀攻撃の攻撃成功率は,多数のコピーを共謀に適用しても約15%に収束することがわかった。
対照的に、既存のアトラクタベースのリライターを固定重量で使用する場合、衝突に使用するコピー数に応じて攻撃成功率は直線的に増加する。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Tracing the Origin of Adversarial Attack for Forensic Investigation and
Deterrence [26.301784771724954]
ディープニューラルネットワークは敵の攻撃に弱い。
本稿では,攻撃を追跡・特定したい研究者の役割について述べる。
本稿では,2段階の分離トレースフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-31T01:38:02Z) - Transferability Ranking of Adversarial Examples [20.41013432717447]
本稿では,転送攻撃処理を洗練させるランキング戦略を提案する。
多様な代理モデルの集合を利用することで, 逆例の転送可能性を予測することができる。
提案手法を用いて, 対向例の移動率を, ランダムな選択から, ほぼ上界レベルまで20%に引き上げることができた。
論文 参考訳(メタデータ) (2022-08-23T11:25:16Z) - Mitigating Adversarial Attacks by Distributing Different Copies to
Different Users [26.301784771724954]
悪意のあるバイヤーが別のバイヤーを攻撃しようとする場合、モデルが複数のバイヤーに分散されるシナリオを考察する。
本稿では,モデルのパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。
実験により、高い分類精度を維持しながら、書き換えは攻撃を著しく軽減できることが示された。
論文 参考訳(メタデータ) (2021-11-30T06:35:36Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。