論文の概要: Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space
- arxiv url: http://arxiv.org/abs/2304.00436v2
- Date: Sun, 17 Mar 2024 00:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 06:38:27.363672
- Title: Instance-Level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space
- Title(参考訳): ニューロン活性化空間における逆学習による視覚質問応答のインスタンスレベルトロイの木馬攻撃
- Authors: Yuwei Sun, Hideya Ochiai, Jun Sakuma,
- Abstract要約: トロイの木馬攻撃は入力データに埋め込まれ、ニューラルネットワークモデルに悪意のある振る舞いをもたらす。
本稿では,VQAに対するインスタンスレベルのマルチモーダルトロイの木馬攻撃を提案する。
提案した攻撃はトロイの木馬のサンプルを数枚注入することで、異なる微調整モデルに効率的に適応できることを実証した。
- 参考スコア(独自算出の注目度): 11.93979764176335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trojan attacks embed perturbations in input data leading to malicious behavior in neural network models. A combination of various Trojans in different modalities enables an adversary to mount a sophisticated attack on multimodal learning such as Visual Question Answering (VQA). However, multimodal Trojans in conventional methods are susceptible to parameter adjustment during processes such as fine-tuning. To this end, we propose an instance-level multimodal Trojan attack on VQA that efficiently adapts to fine-tuned models through a dual-modality adversarial learning method. This method compromises two specific neurons in a specific perturbation layer in the pretrained model to produce overly large neuron activations. Then, a malicious correlation between these overactive neurons and the malicious output of a fine-tuned model is established through adversarial learning. Extensive experiments are conducted using the VQA-v2 dataset, based on a wide range of metrics including sample efficiency, stealthiness, and robustness. The proposed attack demonstrates enhanced performance with diverse vision and text Trojans tailored for each sample. We demonstrate that the proposed attack can be efficiently adapted to different fine-tuned models, by injecting only a few shots of Trojan samples. Moreover, we investigate the attack performance under conventional defenses, where the defenses cannot effectively mitigate the attack.
- Abstract(参考訳): トロイの木馬攻撃は入力データに摂動を埋め込み、ニューラルネットワークモデルに悪意のある振る舞いをもたらす。
異なるモダリティにおける様々なトロイの木馬の組み合わせは、視覚的質問回答(VQA)のようなマルチモーダル学習に対する高度な攻撃を敵に実装することを可能にする。
しかし、従来の手法のマルチモーダルトロイの木馬は微調整などのプロセスにおけるパラメータ調整の影響を受けやすい。
そこで本研究では,VQAに対するインスタンスレベルのマルチモーダルトロイの木馬攻撃を提案する。
この方法は、事前訓練されたモデルの特定の摂動層の2つの特定のニューロンを妥協し、過剰に大きなニューロン活性化を発生させる。
そして、これらの過剰活動ニューロンと微調整モデルの悪質な出力との悪質な相関関係を、逆学習により確立する。
VQA-v2データセットを使用して、サンプル効率、ステルスネス、ロバストネスなど幅広い測定値に基づいて、大規模な実験を行う。
提案した攻撃は、各サンプルに合わせた多様な視覚とテキストトロイの木馬による性能向上を示す。
提案した攻撃はトロイの木馬のサンプルを数枚注入することで、異なる微調整モデルに効率的に適応できることを実証した。
さらに,従来の防御下での攻撃性能について検討し,攻撃を効果的に軽減できないような攻撃性能について検討した。
関連論文リスト
- VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Boosting Adversarial Transferability via Fusing Logits of Top-1
Decomposed Feature [36.78292952798531]
本稿では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃法を提案する。
提案手法は,中間層特徴量より大きい特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。
論文 参考訳(メタデータ) (2023-05-02T12:27:44Z) - TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Few-shot Backdoor Defense Using Shapley Estimation [123.56934991060788]
我々は、深層ニューラルネットワークに対するバックドア攻撃を軽減するために、Shapley Pruningと呼ばれる新しいアプローチを開発した。
ShapPruningは、感染した数少ないニューロン(全ニューロンの1%以下)を特定し、モデルの構造と正確性を保護する。
様々な攻撃やタスクに対して,本手法の有効性とロバスト性を示す実験を行った。
論文 参考訳(メタデータ) (2021-12-30T02:27:03Z) - A Synergetic Attack against Neural Network Classifiers combining
Backdoor and Adversarial Examples [11.534521802321976]
AdvTrojanと呼ばれる新たなステルス攻撃を実際に開始するために、敵の摂動と毒殺の脆弱性を共同で活用する方法を示します。
AdvTrojan は、(1) 慎重に製作された逆方向の摂動を推論中に入力例に注入し、2) モデルの訓練過程中にトロイの木戸を埋め込んだ場合にのみ起動できるため、ステルス性が高い。
論文 参考訳(メタデータ) (2021-09-03T02:18:57Z) - Improving Transformation-based Defenses against Adversarial Examples
with First-order Perturbations [16.346349209014182]
研究によると、ニューラルネットワークは敵の攻撃を受けやすい。
これにより、ニューラルネットワークベースのインテリジェントシステムに対する潜在的な脅威が露呈する。
本稿では, 対向性強靭性を改善するために, 対向性摂動に対処する手法を提案する。
論文 参考訳(メタデータ) (2021-03-08T06:27:24Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。