論文の概要: Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion
Attacks
- arxiv url: http://arxiv.org/abs/2306.01400v1
- Date: Fri, 2 Jun 2023 09:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:55:44.002812
- Title: Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion
Attacks
- Title(参考訳): Adaptive Attractors: ML敵の衝突攻撃に対する防御戦略
- Authors: Jiyi Zhang, Han Fang, Ee-Chien Chang
- Abstract要約: 既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースのリライタを使用してこれを実現している。
これにより、異なるコピーで異なる逆数領域を誘導し、あるコピーで生成された逆数領域のサンプルは、他のコピーでは複製できない。
本稿では,U字曲線で重みを導出するアダプティブ・アトラクタを用いて,不足点をカバーすることを提案する。
- 参考スコア(独自算出の注目度): 24.266782496653203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the seller-buyer setting on machine learning models, the seller generates
different copies based on the original model and distributes them to different
buyers, such that adversarial samples generated on one buyer's copy would
likely not work on other copies. A known approach achieves this using
attractor-based rewriter which injects different attractors to different
copies. This induces different adversarial regions in different copies, making
adversarial samples generated on one copy not replicable on others. In this
paper, we focus on a scenario where multiple malicious buyers collude to
attack. We first give two formulations and conduct empirical studies to analyze
effectiveness of collusion attack under different assumptions on the attacker's
capabilities and properties of the attractors. We observe that existing
attractor-based methods do not effectively mislead the colluders in the sense
that adversarial samples found are influenced more by the original model
instead of the attractors as number of colluders increases. Based on this
observation, we propose using adaptive attractors whose weight is guided by a
U-shape curve to cover the shortfalls. Experimentation results show that when
using our approach, the attack success rate of a collusion attack converges to
around 15% even when lots of copies are applied for collusion. In contrast,
when using the existing attractor-based rewriter with fixed weight, the attack
success rate increases linearly with the number of copies used for collusion.
- Abstract(参考訳): 機械学習モデルに基づく売り手購入設定では、売り手は元のモデルに基づいて異なるコピーを生成し、それを別の購入者に配布する。
既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースの書き換え器を使用してこれを実現している。
これは異なるコピーで異なる敵領域を誘導し、あるコピーで生成された敵のサンプルは他のコピーでは複製できない。
本稿では,複数の悪意のある買い手が衝突するシナリオに注目した。
まず、まず2つの定式化を行い、攻撃者の能力と誘引者の特性に異なる仮定で衝突攻撃の有効性を解析するための実証的研究を行った。
我々は,既存のアトラクタに基づく手法が,コローダの数が増加するにつれて,アトラクタではなく,元のモデルから見出されたサンプルの方が影響を受けやすいという意味で,コローダを効果的に誤解させるものではないことを観察した。
そこで本研究では,U字曲線で重みを導出するアダプティブアトラクタを用いて,不足点をカバーすることを提案する。
実験の結果,共謀攻撃の攻撃成功率は,多数のコピーを共謀に適用しても約15%に収束することがわかった。
対照的に、既存のアトラクタベースのリライターを固定重量で使用する場合、衝突に使用するコピー数に応じて攻撃成功率は直線的に増加する。
関連論文リスト
- DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Tracing the Origin of Adversarial Attack for Forensic Investigation and
Deterrence [26.301784771724954]
ディープニューラルネットワークは敵の攻撃に弱い。
本稿では,攻撃を追跡・特定したい研究者の役割について述べる。
本稿では,2段階の分離トレースフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-31T01:38:02Z) - Mitigating Adversarial Attacks by Distributing Different Copies to
Different Users [26.301784771724954]
悪意のあるバイヤーが別のバイヤーを攻撃しようとする場合、モデルが複数のバイヤーに分散されるシナリオを考察する。
本稿では,モデルのパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。
実験により、高い分類精度を維持しながら、書き換えは攻撃を著しく軽減できることが示された。
論文 参考訳(メタデータ) (2021-11-30T06:35:36Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - Adversarial defenses via a mixture of generators [0.0]
敵対的な例は、深層学習システムの比較的弱い特徴として残っています。
本研究では,複数の敵攻撃を同時に行うことで,このようなシステムを監督せずに訓練することが可能であることを示す。
本システムでは,MNISTデータセットのアタックやデータラベルを使用せずに,未確認例のクラス情報を復元することができる。
論文 参考訳(メタデータ) (2021-10-05T21:27:50Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。