論文の概要: TRIGS: Trojan Identification from Gradient-based Signatures
- arxiv url: http://arxiv.org/abs/2306.04877v3
- Date: Wed, 11 Dec 2024 14:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:04.459553
- Title: TRIGS: Trojan Identification from Gradient-based Signatures
- Title(参考訳): TRIGS: グラディエントベースの署名からのトロイの木馬識別
- Authors: Mohamed E. Hussein, Sudharshan Subramaniam Janakiraman, Wael AbdAlmageed,
- Abstract要約: 機械学習モデルのトレーニングは非常に費用がかからない。
事前訓練されたモデルはトロイア攻撃に感染することがある。
本稿では,トロイの木馬モデルを検出する新しい方法を提案する。
- 参考スコア(独自算出の注目度): 13.37492199234584
- License:
- Abstract: Training machine learning models can be very expensive or even unaffordable. This may be, for example, due to data limitations, such as unavailability or being too large, or computational power limitations. Therefore, it is a common practice to rely on open-source pre-trained models whenever possible.However, this practice is alarming from a security perspective. Pre-trained models can be infected with Trojan attacks, in which the attacker embeds a trigger in the model such that the model's behavior can be controlled by the attacker when the trigger is present in the input. In this paper, we present a novel method for detecting Trojan models. Our method creates a signature for a model based on activation optimization. A classifier is then trained to detect a Trojan model given its signature. We call our method TRIGS for TRojan Identification from Gradient-based Signatures. TRIGS achieves state-of-the-art performance on two public datasets of convolutional models. Additionally, we introduce a new challenging dataset of ImageNet models based on the vision transformer architecture. TRIGS delivers the best performance on the new dataset, surpassing the baseline methods by a large margin. Our experiments also show that TRIGS requires only a small amount of clean samples to achieve good performance, and works reasonably well even if the defender does not have prior knowledge about the attacker's model architecture. Our code and data are publicly available.
- Abstract(参考訳): 機械学習モデルのトレーニングは非常に費用がかからない。
これは例えば、可用性の欠如や大きすぎる、計算能力の制限といったデータ制限のためかもしれない。
したがって、可能な限り、オープンソースで事前訓練されたモデルを頼りにするのが一般的であるが、セキュリティの観点からは、このプラクティスは警戒されている。
事前訓練されたモデルはトロイの木馬攻撃に感染し、攻撃者はモデルにトリガーを埋め込んで、入力にトリガーが存在するときにモデルの動作がアタッカーによって制御されるようにする。
本稿では,トロイの木馬モデルを検出する新しい手法を提案する。
本手法は,アクティベーション最適化に基づくモデルのためのシグネチャを生成する。
分類器は、そのシグネチャが与えられたトロイの木馬モデルを検出するように訓練される。
我々は、グラディエントベースの署名からTRojan識別のためのTRIGSと呼ぶ。
TRIGSは、畳み込みモデルの2つの公開データセットで最先端のパフォーマンスを達成する。
さらに、視覚トランスフォーマーアーキテクチャに基づいた、ImageNetモデルの新しい挑戦的なデータセットも導入する。
TRIGSは、新しいデータセットで最高のパフォーマンスを提供し、ベースラインメソッドを大きなマージンで上回る。
実験の結果,攻撃者のモデルアーキテクチャについて事前知識を持っていない場合でも,TRIGSは少数のクリーンサンプルを必要とせず,合理的に動作可能であることがわかった。
私たちのコードとデータは公開されています。
関連論文リスト
- Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。
私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文 参考訳(メタデータ) (2024-01-16T10:32:13Z) - A Plot is Worth a Thousand Words: Model Information Stealing Attacks via
Scientific Plots [14.998272283348152]
敵がターゲットのMLモデルの出力を利用してモデルの情報を盗むことはよく知られている。
我々は、モデル情報盗難攻撃、すなわちモデルの科学的プロットのための新しいサイドチャネルを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:57:34Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。
我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2020-11-23T01:36:05Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。