論文の概要: Instance-level Trojan Attacks on Visual Question Answering via
Adversarial Learning in Neuron Activation Space
- arxiv url: http://arxiv.org/abs/2304.00436v1
- Date: Sun, 2 Apr 2023 03:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:08:34.966358
- Title: Instance-level Trojan Attacks on Visual Question Answering via
Adversarial Learning in Neuron Activation Space
- Title(参考訳): ニューロン活性化空間における逆学習による視覚質問応答のインスタンスレベルトロイの木馬攻撃
- Authors: Yuwei Sun, Hideya Ochiai, Jun Sakuma
- Abstract要約: トロイの木馬攻撃として知られる入力データに埋め込まれた悪意のある摂動は、ニューラルネットワークの誤動作を引き起こす可能性がある。
この研究は、サンプル効率、ステルスネスと変動、そして微調整をモデル化するための堅牢性に焦点を当てている。
入力サンプルとモダリティにまたがる多様なトロイの木馬を生成するインスタンスレベルのトロイの木馬攻撃を提案する。
- 参考スコア(独自算出の注目度): 15.172954465350667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious perturbations embedded in input data, known as Trojan attacks, can
cause neural networks to misbehave. However, the impact of a Trojan attack is
reduced during fine-tuning of the model, which involves transferring knowledge
from a pretrained large-scale model like visual question answering (VQA) to the
target model. To mitigate the effects of a Trojan attack, replacing and
fine-tuning multiple layers of the pretrained model is possible. This research
focuses on sample efficiency, stealthiness and variation, and robustness to
model fine-tuning. To address these challenges, we propose an instance-level
Trojan attack that generates diverse Trojans across input samples and
modalities. Adversarial learning establishes a correlation between a specified
perturbation layer and the misbehavior of the fine-tuned model. We conducted
extensive experiments on the VQA-v2 dataset using a range of metrics. The
results show that our proposed method can effectively adapt to a fine-tuned
model with minimal samples. Specifically, we found that a model with a single
fine-tuning layer can be compromised using a single shot of adversarial
samples, while a model with more fine-tuning layers can be compromised using
only a few shots.
- Abstract(参考訳): トロイの木馬攻撃として知られる入力データに埋め込まれた悪意のある摂動は、ニューラルネットワークの誤動作を引き起こす可能性がある。
しかし、トロイの木馬攻撃の影響は、視覚的質問応答(VQA)のような事前訓練済みの大規模モデルからターゲットモデルへの知識の伝達を伴うモデルの微調整時に減少する。
トロイの木馬攻撃の影響を軽減するため、事前訓練されたモデルの複数の層を交換および微調整することが可能である。
本研究は, サンプルの効率, ステルス性, ばらつき, および微調整モデルに対するロバスト性に焦点をあてた。
これらの課題に対処するために,入力サンプルとモダリティにまたがる多様なトロイの木馬を生成するインスタンスレベルのトロイの木馬攻撃を提案する。
逆学習は、特定の摂動層と微調整モデルの誤動作との相関を確立する。
我々は,VQA-v2データセットの幅広い実験を行った。
その結果,提案手法は最小サンプルの微調整モデルに効果的に適応できることがわかった。
具体的には,1枚の微調整層を持つモデルでは,1枚の逆数サンプルを用いて,さらに微細調整層を持つモデルではわずか数枚で妥協できることがわかった。
関連論文リスト
- VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Boosting Adversarial Transferability via Fusing Logits of Top-1
Decomposed Feature [36.78292952798531]
本稿では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃法を提案する。
提案手法は,中間層特徴量より大きい特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。
論文 参考訳(メタデータ) (2023-05-02T12:27:44Z) - TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Few-shot Backdoor Defense Using Shapley Estimation [123.56934991060788]
我々は、深層ニューラルネットワークに対するバックドア攻撃を軽減するために、Shapley Pruningと呼ばれる新しいアプローチを開発した。
ShapPruningは、感染した数少ないニューロン(全ニューロンの1%以下)を特定し、モデルの構造と正確性を保護する。
様々な攻撃やタスクに対して,本手法の有効性とロバスト性を示す実験を行った。
論文 参考訳(メタデータ) (2021-12-30T02:27:03Z) - A Synergetic Attack against Neural Network Classifiers combining
Backdoor and Adversarial Examples [11.534521802321976]
AdvTrojanと呼ばれる新たなステルス攻撃を実際に開始するために、敵の摂動と毒殺の脆弱性を共同で活用する方法を示します。
AdvTrojan は、(1) 慎重に製作された逆方向の摂動を推論中に入力例に注入し、2) モデルの訓練過程中にトロイの木戸を埋め込んだ場合にのみ起動できるため、ステルス性が高い。
論文 参考訳(メタデータ) (2021-09-03T02:18:57Z) - Improving Transformation-based Defenses against Adversarial Examples
with First-order Perturbations [16.346349209014182]
研究によると、ニューラルネットワークは敵の攻撃を受けやすい。
これにより、ニューラルネットワークベースのインテリジェントシステムに対する潜在的な脅威が露呈する。
本稿では, 対向性強靭性を改善するために, 対向性摂動に対処する手法を提案する。
論文 参考訳(メタデータ) (2021-03-08T06:27:24Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。