論文の概要: Instance-level Trojan Attacks on Visual Question Answering via
Adversarial Learning in Neuron Activation Space
- arxiv url: http://arxiv.org/abs/2304.00436v1
- Date: Sun, 2 Apr 2023 03:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:08:34.966358
- Title: Instance-level Trojan Attacks on Visual Question Answering via
Adversarial Learning in Neuron Activation Space
- Title(参考訳): ニューロン活性化空間における逆学習による視覚質問応答のインスタンスレベルトロイの木馬攻撃
- Authors: Yuwei Sun, Hideya Ochiai, Jun Sakuma
- Abstract要約: トロイの木馬攻撃として知られる入力データに埋め込まれた悪意のある摂動は、ニューラルネットワークの誤動作を引き起こす可能性がある。
この研究は、サンプル効率、ステルスネスと変動、そして微調整をモデル化するための堅牢性に焦点を当てている。
入力サンプルとモダリティにまたがる多様なトロイの木馬を生成するインスタンスレベルのトロイの木馬攻撃を提案する。
- 参考スコア(独自算出の注目度): 15.172954465350667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious perturbations embedded in input data, known as Trojan attacks, can
cause neural networks to misbehave. However, the impact of a Trojan attack is
reduced during fine-tuning of the model, which involves transferring knowledge
from a pretrained large-scale model like visual question answering (VQA) to the
target model. To mitigate the effects of a Trojan attack, replacing and
fine-tuning multiple layers of the pretrained model is possible. This research
focuses on sample efficiency, stealthiness and variation, and robustness to
model fine-tuning. To address these challenges, we propose an instance-level
Trojan attack that generates diverse Trojans across input samples and
modalities. Adversarial learning establishes a correlation between a specified
perturbation layer and the misbehavior of the fine-tuned model. We conducted
extensive experiments on the VQA-v2 dataset using a range of metrics. The
results show that our proposed method can effectively adapt to a fine-tuned
model with minimal samples. Specifically, we found that a model with a single
fine-tuning layer can be compromised using a single shot of adversarial
samples, while a model with more fine-tuning layers can be compromised using
only a few shots.
- Abstract(参考訳): トロイの木馬攻撃として知られる入力データに埋め込まれた悪意のある摂動は、ニューラルネットワークの誤動作を引き起こす可能性がある。
しかし、トロイの木馬攻撃の影響は、視覚的質問応答(VQA)のような事前訓練済みの大規模モデルからターゲットモデルへの知識の伝達を伴うモデルの微調整時に減少する。
トロイの木馬攻撃の影響を軽減するため、事前訓練されたモデルの複数の層を交換および微調整することが可能である。
本研究は, サンプルの効率, ステルス性, ばらつき, および微調整モデルに対するロバスト性に焦点をあてた。
これらの課題に対処するために,入力サンプルとモダリティにまたがる多様なトロイの木馬を生成するインスタンスレベルのトロイの木馬攻撃を提案する。
逆学習は、特定の摂動層と微調整モデルの誤動作との相関を確立する。
我々は,VQA-v2データセットの幅広い実験を行った。
その結果,提案手法は最小サンプルの微調整モデルに効果的に適応できることがわかった。
具体的には,1枚の微調整層を持つモデルでは,1枚の逆数サンプルを用いて,さらに微細調整層を持つモデルではわずか数枚で妥協できることがわかった。
関連論文リスト
- Steganographic Capacity of Deep Learning Models [12.974139332068491]
いくつかの学習モデルのステガノグラフィー能力について考察する。
我々は,難解なマルウェア分類問題に対して,多層パーセプトロン(MLP),畳み込みニューラルネットワーク(CNN),トランスフォーマーモデルを訓練する。
テストした学習モデルのステガノグラフィー能力は驚くほど高く,いずれの場合も,モデル性能が急速に低下する明確なしきい値が存在することがわかった。
論文 参考訳(メタデータ) (2023-06-25T13:43:35Z) - Trojan Model Detection Using Activation Optimization [15.032071953322594]
機械学習モデルのトレーニングは非常に費用がかからない。
事前訓練されたモデルはトロイア攻撃に感染することがある。
本稿では,トロイの木馬モデルを検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-06-08T02:17:29Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。