論文の概要: Trojan Model Detection Using Activation Optimization
- arxiv url: http://arxiv.org/abs/2306.04877v2
- Date: Tue, 6 Feb 2024 02:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:36:54.554317
- Title: Trojan Model Detection Using Activation Optimization
- Title(参考訳): アクティベーション最適化を用いたトロイの木馬モデル検出
- Authors: Mohamed E. Hussein, Sudharshan Subramaniam Janakiraman, Wael
AbdAlmageed
- Abstract要約: 機械学習モデルのトレーニングは非常に費用がかからない。
事前訓練されたモデルはトロイア攻撃に感染することがある。
本稿では,トロイの木馬モデルを検出する新しい方法を提案する。
- 参考スコア(独自算出の注目度): 15.032071953322594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training machine learning models can be very expensive or even unaffordable.
This may be, for example, due to data limitations (unavailability or being too
large), or computational power limitations. Therefore, it is a common practice
to rely on open-source pre-trained models whenever possible. However, this
practice is alarming from a security perspective. Pre-trained models can be
infected with Trojan attacks, in which the attacker embeds a trigger in the
model such that the model's behavior can be controlled by the attacker when the
trigger is present in the input. In this paper, we present a novel method for
detecting Trojan models. Our method creates a signature for a model based on
activation optimization. A classifier is then trained to detect a Trojan model
given its signature. We call our method TRIGS for TRojan Identification from
Gradient-based Signatures. TRIGS achieves state-of-the-art performance on two
public datasets of convolutional models. Additionally, we introduce a new
challenging dataset of ImageNet models based on the vision transformer
architecture. TRIGS delivers the best performance on the new dataset,
surpassing the baseline methods by a large margin. Our experiments also show
that TRIGS requires only a small amount of clean samples to achieve good
performance, and works reasonably well even if the defender does not have prior
knowledge about the attacker's model architecture. Our dataset will be released
soon.
- Abstract(参考訳): 機械学習モデルのトレーニングは非常に費用がかからない。
これは、例えば、データ制限(使用不可能か、大きすぎるか)や計算能力の制限のためかもしれない。
したがって、可能な限りオープンソースの事前学習モデルに頼るのが一般的である。
しかし、このプラクティスはセキュリティの観点から警戒されている。
事前訓練されたモデルはトロイの木馬攻撃に感染し、攻撃者はモデルにトリガーを埋め込んで、入力にトリガーが存在するときにモデルの動作がアタッカーによって制御されるようにする。
本稿では,トロイの木馬モデルを検出する新しい手法を提案する。
本手法はアクティベーション最適化に基づくモデルのシグネチャを生成する。
分類器は、そのシグネチャが与えられたトロイの木馬モデルを検出するように訓練される。
我々は、グラディエントベースの署名からTRojan識別のためのTRIGSと呼ぶ。
TRIGSは、畳み込みモデルの2つの公開データセットで最先端のパフォーマンスを達成する。
さらに,視覚トランスフォーマーアーキテクチャに基づいた,imagenetモデルの新たな挑戦的データセットも紹介する。
TRIGSは新しいデータセットで最高のパフォーマンスを提供し、ベースラインメソッドを大きなマージンで上回る。
また,本実験では,攻撃者のモデルアーキテクチャについて事前の知識がなくても,トライグはクリーンなサンプルを少量しか必要とせず,合理的に機能することを示した。
私たちのデータセットはまもなくリリースされます。
関連論文リスト
- Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。
私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文 参考訳(メタデータ) (2024-01-16T10:32:13Z) - A Plot is Worth a Thousand Words: Model Information Stealing Attacks via
Scientific Plots [14.998272283348152]
敵がターゲットのMLモデルの出力を利用してモデルの情報を盗むことはよく知られている。
我々は、モデル情報盗難攻撃、すなわちモデルの科学的プロットのための新しいサイドチャネルを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:57:34Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。
我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2020-11-23T01:36:05Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。