Fugu-MT 論文翻訳(概要): Trojan Model Detection Using Activation Optimization

論文の概要: Trojan Model Detection Using Activation Optimization

arxiv url: http://arxiv.org/abs/2306.04877v1
Date: Thu, 8 Jun 2023 02:17:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 16:42:16.109764
Title: Trojan Model Detection Using Activation Optimization
Title（参考訳）: アクティベーション最適化を用いたトロイの木馬モデル検出
Authors: Mohamed E. Hussein, Sudharshan Subramaniam Janakiraman, Wael AbdAlmageed
Abstract要約: トレーニング済みの機械学習モデルは、トロイの木馬攻撃に感染する可能性がある。本稿では,トロイの木馬モデル検出のための新しい手法について予備研究を行う。提案手法は,2つの公開データセット上でのアートパフォーマンスの状態を達成している。
参考スコア（独自算出の注目度）: 13.275798023421377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to data's unavailability or large size, and the high computational and human labor costs of training machine learning models, it is a common practice to rely on open source pre-trained models whenever possible. However, this practice is worry some from the security perspective. Pre-trained models can be infected with Trojan attacks, in which the attacker embeds a trigger in the model such that the model's behavior can be controlled by the attacker when the trigger is present in the input. In this paper, we present our preliminary work on a novel method for Trojan model detection. Our method creates a signature for a model based on activation optimization. A classifier is then trained to detect a Trojan model given its signature. Our method achieves state of the art performance on two public datasets.
Abstract（参考訳）: データの利用可能性やサイズが大きいこと、機械学習モデルをトレーニングする計算コストや人件費が高いことから、可能な限りオープンソースの事前学習モデルに頼ることが一般的である。しかし、このプラクティスはセキュリティの観点から懸念を抱いている。事前訓練されたモデルはトロイの木馬攻撃に感染し、攻撃者はモデルにトリガーを埋め込んで、入力にトリガーが存在するときにモデルの動作がアタッカーによって制御されるようにする。本稿では,トロイの木馬モデル検出のための新しい手法について予備研究を行う。本手法はアクティベーション最適化に基づくモデルのシグネチャを生成する。分類器は、そのシグネチャが与えられたトロイの木馬モデルを検出するように訓練される。提案手法は,2つの公開データセットにおけるアートパフォーマンスの状態を実現できる。

関連論文リスト

Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-04-20T09:07:10Z)
Probabilistically Robust Watermarking of Neural Networks [4.332441337407564]
我々は、攻撃を盗む機能に対するレジリエンスを示す新しいトリガーセットベースの透かし手法を導入する。私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。
論文参考訳（メタデータ） (2024-01-16T10:32:13Z)
Occlusion-based Detection of Trojan-triggering Inputs in Large Language Models of Code [12.590783740412157]
大規模言語モデル(LLM)は、ソフトウェア開発の一体的な部分になりつつある。潜在的攻撃面は、有毒なデータをトレーニングデータに注入して、モデルを脆弱にする、いわゆるトロイの木馬である。モデル内にマニピュティブな振る舞いを隠すことで、ダウンストリームタスクにおけるモデルの整合性を損なうという重大な脅威を引き起こす可能性がある。
論文参考訳（メタデータ） (2023-12-07T02:44:35Z)
A Plot is Worth a Thousand Words: Model Information Stealing Attacks via Scientific Plots [14.998272283348152]
敵がターゲットのMLモデルの出力を利用してモデルの情報を盗むことはよく知られている。我々は、モデル情報盗難攻撃、すなわちモデルの科学的プロットのための新しいサイドチャネルを提案する。
論文参考訳（メタデータ） (2023-02-23T12:57:34Z)
Are You Stealing My Model? Sample Correlation for Fingerprinting Deep Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。 SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文参考訳（メタデータ） (2022-10-21T02:07:50Z)
MOVE: Effective and Harmless Ownership Verification via Embedded External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文参考訳（メタデータ） (2022-08-04T02:22:29Z)
Defending against Model Stealing via Verifying Embedded External Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文参考訳（メタデータ） (2021-12-07T03:51:54Z)
Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文参考訳（メタデータ） (2020-12-04T11:10:03Z)
Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文参考訳（メタデータ） (2020-11-23T01:36:05Z)
Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文参考訳（メタデータ） (2020-07-16T06:55:00Z)
Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文参考訳（メタデータ） (2020-06-10T04:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。