論文の概要: Tracing the Origin of Adversarial Attack for Forensic Investigation and
Deterrence
- arxiv url: http://arxiv.org/abs/2301.01218v1
- Date: Sat, 31 Dec 2022 01:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:21:17.886832
- Title: Tracing the Origin of Adversarial Attack for Forensic Investigation and
Deterrence
- Title(参考訳): 法医学的調査と抑止のための敵対的攻撃の起源の追跡
- Authors: Han Fang, Jiyi Zhang, Yupeng Qiu, Ke Xu, Chengfang Fang and Ee-Chien
Chang
- Abstract要約: ディープニューラルネットワークは敵の攻撃に弱い。
本稿では,攻撃を追跡・特定したい研究者の役割について述べる。
本稿では,2段階の分離トレースフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.301784771724954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks are vulnerable to adversarial attacks. In this paper, we
take the role of investigators who want to trace the attack and identify the
source, that is, the particular model which the adversarial examples are
generated from. Techniques derived would aid forensic investigation of attack
incidents and serve as deterrence to potential attacks. We consider the
buyers-seller setting where a machine learning model is to be distributed to
various buyers and each buyer receives a slightly different copy with same
functionality. A malicious buyer generates adversarial examples from a
particular copy $\mathcal{M}_i$ and uses them to attack other copies. From
these adversarial examples, the investigator wants to identify the source
$\mathcal{M}_i$. To address this problem, we propose a two-stage
separate-and-trace framework. The model separation stage generates multiple
copies of a model for a same classification task. This process injects unique
characteristics into each copy so that adversarial examples generated have
distinct and traceable features. We give a parallel structure which embeds a
``tracer'' in each copy, and a noise-sensitive training loss to achieve this
goal. The tracing stage takes in adversarial examples and a few candidate
models, and identifies the likely source. Based on the unique features induced
by the noise-sensitive loss function, we could effectively trace the potential
adversarial copy by considering the output logits from each tracer. Empirical
results show that it is possible to trace the origin of the adversarial example
and the mechanism can be applied to a wide range of architectures and datasets.
- Abstract(参考訳): ディープニューラルネットワークは敵の攻撃に弱い。
本稿では,攻撃を追跡したい調査員の役割を担い,その攻撃源,すなわち,攻撃例が生成する特定のモデルを特定する。
派生した技術は、攻撃事件に関する法医学的な調査を助け、潜在的な攻撃の抑止力となる。
我々は、機械学習モデルを様々な購入者に配布し、各購入者が同じ機能を持つわずかに異なるコピーを受け取るようにした購入者販売設定を考える。
悪意のある買い手は、特定のコピー $\mathcal{m}_i$ から逆の例を生成し、それらを使用して他のコピーを攻撃する。
これらの逆の例から、研究者はソース $\mathcal{M}_i$ を特定したい。
この問題に対処するため,我々は2段階の分離トレースフレームワークを提案する。
モデル分離段階は同じ分類タスクのためのモデルの複数のコピーを生成する。
このプロセスは各コピーにユニークな特徴を注入するので、生成された敵の例が個別で追跡可能な特徴を持つ。
各コピーに ``tracer'' を埋め込んだ並列構造と、この目標を達成するためにノイズに敏感なトレーニング損失を与える。
トレースステージは、敵対的な例といくつかの候補モデルを取り、潜在的ソースを特定する。
ノイズ感度損失関数によって引き起こされるユニークな特徴に基づいて,各トレーサからの出力ロジットを考慮し,潜在的な逆転コピーを効果的に追跡することができる。
実証的な結果は、敵の例の起源を追跡することができ、そのメカニズムは幅広いアーキテクチャやデータセットに適用できることを示している。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion
Attacks [24.266782496653203]
既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースのリライタを使用してこれを実現している。
これにより、異なるコピーで異なる逆数領域を誘導し、あるコピーで生成された逆数領域のサンプルは、他のコピーでは複製できない。
本稿では,U字曲線で重みを導出するアダプティブ・アトラクタを用いて,不足点をカバーすることを提案する。
論文 参考訳(メタデータ) (2023-06-02T09:46:54Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - Mitigating Adversarial Attacks by Distributing Different Copies to
Different Users [26.301784771724954]
悪意のあるバイヤーが別のバイヤーを攻撃しようとする場合、モデルが複数のバイヤーに分散されるシナリオを考察する。
本稿では,モデルのパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。
実験により、高い分類精度を維持しながら、書き換えは攻撃を著しく軽減できることが示された。
論文 参考訳(メタデータ) (2021-11-30T06:35:36Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adversarial defenses via a mixture of generators [0.0]
敵対的な例は、深層学習システムの比較的弱い特徴として残っています。
本研究では,複数の敵攻撃を同時に行うことで,このようなシステムを監督せずに訓練することが可能であることを示す。
本システムでは,MNISTデータセットのアタックやデータラベルを使用せずに,未確認例のクラス情報を復元することができる。
論文 参考訳(メタデータ) (2021-10-05T21:27:50Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。