論文の概要: Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift
- arxiv url: http://arxiv.org/abs/2406.18844v4
- Date: Mon, 16 Dec 2024 06:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:30.577308
- Title: Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift
- Title(参考訳): ドメインシフトによる大規模視線モデルに対するバックドアアタックの再検討
- Authors: Siyuan Liang, Jiawei Liang, Tianyu Pang, Chao Du, Aishan Liu, Mingli Zhu, Xiaochun Cao, Dacheng Tao,
- Abstract要約: 本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
- 参考スコア(独自算出の注目度): 104.76588209308666
- License:
- Abstract: Instruction tuning enhances large vision-language models (LVLMs) but increases their vulnerability to backdoor attacks due to their open design. Unlike prior studies in static settings, this paper explores backdoor attacks in LVLM instruction tuning across mismatched training and testing domains. We introduce a new evaluation dimension, backdoor domain generalization, to assess attack robustness under visual and text domain shifts. Our findings reveal two insights: (1) backdoor generalizability improves when distinctive trigger patterns are independent of specific data domains or model architectures, and (2) the competitive interaction between trigger patterns and clean semantic regions, where guiding the model to predict triggers enhances attack generalizability. Based on these insights, we propose a multimodal attribution backdoor attack (MABA) that injects domain-agnostic triggers into critical areas using attributional interpretation. Experiments with OpenFlamingo, Blip-2, and Otter show that MABA significantly boosts the attack success rate of generalization by 36.4%, achieving a 97% success rate at a 0.2% poisoning rate. This study reveals limitations in current evaluations and highlights how enhanced backdoor generalizability poses a security threat to LVLMs, even without test data access.
- Abstract(参考訳): インストラクションチューニングは、大きな視覚言語モデル(LVLM)を強化するが、オープン設計のためバックドアアタックの脆弱性を増加させる。
静的設定における従来の研究とは異なり、ミスマッチしたトレーニングやテスト領域をまたいだLVLM命令チューニングにおけるバックドアアタックについて検討する。
視覚領域とテキスト領域のシフト下での攻撃堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
その結果,(1)特定のデータドメインやモデルアーキテクチャに固有のトリガパターンが依存しない場合のバックドア一般化性が向上し,(2)トリガパターンとクリーンセマンティック領域との競合性が向上し,トリガ予測モデルが攻撃一般化性を高めることがわかった。
これらの知見に基づいて、帰属的解釈を用いてドメイン非依存的なトリガーを臨界領域に注入するマルチモーダル・アトリビューション・バックドア・アタック(MABA)を提案する。
OpenFlamingo、Blip-2、Otterの実験では、MABAは一般化の攻撃成功率を36.4%向上させ、0.2%の毒殺率で97%の成功率を達成した。
本研究は、現在の評価における限界を明らかにし、テストデータアクセスなしでも、バックドアの一般化性がLVLMにセキュリティ上の脅威をもたらすことを強調した。
関連論文リスト
- BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks on Large Language Models [27.59116619946915]
textitBackdoorLLMは、生成型大規模言語モデルに対するバックドア攻撃を研究するための、最初の包括的なベンチマークである。
textitBackdoorLLMの機能: 1) 標準化されたトレーニングパイプラインを備えたバックドアベンチマークのレポジトリ、2) データ中毒、重毒、隠れ状態攻撃、およびチェーンオブ思想攻撃を含む多様な攻撃戦略、3) 7つのシナリオと6つのモデルアーキテクチャにわたる8つの攻撃に関する200以上の実験による広範な評価。
論文 参考訳(メタデータ) (2024-08-23T02:21:21Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Demystifying Poisoning Backdoor Attacks from a Statistical Perspective [35.30533879618651]
バックドア攻撃は、そのステルス性や潜在的に深刻な影響により、重大なセキュリティリスクを引き起こす。
本稿では,一定のトリガを組み込んだバックドア攻撃の有効性を評価する。
我々の導出した理解は、識別モデルと生成モデルの両方に適用できる。
論文 参考訳(メタデータ) (2023-10-16T19:35:01Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Rethinking the Trigger-injecting Position in Graph Backdoor Attack [7.4968235623939155]
バックドア攻撃は、機械学習モデルのセキュリティ脅威として実証されている。
本稿では,グラフニューラルネットワーク(GNN)のバックドア攻撃に対する2つのトリガーインジェクション戦略について検討する。
その結果, LIASの性能は向上し, LIASとMIASの差は大きいことがわかった。
論文 参考訳(メタデータ) (2023-04-05T07:50:05Z) - Understanding Impacts of Task Similarity on Backdoor Attack and
Detection [17.5277044179396]
我々は,マルチタスク学習における類似度指標を用いて,メインタスクとバックドアタスク間のバックドア距離(類似度)を定義する。
すると私たちは、既存のステルスなバックドア攻撃を分析し、そのほとんどはバックドア距離を効果的に減らすことができないことを明らかにしました。
次に,TSA攻撃と呼ばれる新しい手法を設計し,所定の距離制約の下でバックドアモデルを自動的に生成する。
論文 参考訳(メタデータ) (2022-10-12T18:07:39Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。