論文の概要: VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models
- arxiv url: http://arxiv.org/abs/2402.13851v1
- Date: Wed, 21 Feb 2024 14:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:52:05.933199
- Title: VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models
- Title(参考訳): VL-Trojan: 自動回帰視覚言語モデルに対するマルチモーダル命令バックドアアタック
- Authors: Jiawei Liang, Siyuan Liang, Man Luo, Aishan Liu, Dongchen Han,
Ee-Chien Chang, Xiaochun Cao
- Abstract要約: VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
- 参考スコア(独自算出の注目度): 65.23688155159398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Visual Language Models (VLMs) showcase impressive few-shot
learning capabilities in a multimodal context. Recently, multimodal instruction
tuning has been proposed to further enhance instruction-following abilities.
However, we uncover the potential threat posed by backdoor attacks on
autoregressive VLMs during instruction tuning. Adversaries can implant a
backdoor by injecting poisoned samples with triggers embedded in instructions
or images, enabling malicious manipulation of the victim model's predictions
with predefined triggers. Nevertheless, the frozen visual encoder in
autoregressive VLMs imposes constraints on the learning of conventional image
triggers. Additionally, adversaries may encounter restrictions in accessing the
parameters and architectures of the victim model. To address these challenges,
we propose a multimodal instruction backdoor attack, namely VL-Trojan. Our
approach facilitates image trigger learning through an isolating and clustering
strategy and enhance black-box-attack efficacy via an iterative character-level
text trigger generation method. Our attack successfully induces target outputs
during inference, significantly surpassing baselines (+62.52\%) in ASR.
Moreover, it demonstrates robustness across various model scales and few-shot
in-context reasoning scenarios.
- Abstract(参考訳): オートレグレッシブビジュアル言語モデル(vlms)は、マルチモーダルなコンテキストで印象的な少数ショット学習能力を示す。
近年,命令追従能力を高めるためにマルチモーダル命令チューニングが提案されている。
しかし,本研究では,自動回帰VLMに対するバックドア攻撃による潜在的脅威を明らかにする。
敵は、感染したサンプルに指示や画像に埋め込まれたトリガーを注入することで、バックドアを埋め込むことができる。
それでも、自己回帰vlmにおける凍結視覚エンコーダは、従来の画像トリガーの学習に制約を課している。
さらに、敵は犠牲者モデルのパラメータやアーキテクチャにアクセスする際に制限を受けることがある。
これらの課題に対処するため、我々はマルチモーダル命令バックドア攻撃(VL-Trojan)を提案する。
提案手法は,分離クラスタリング戦略による画像トリガ学習を促進し,反復的文字レベルのテキストトリガ生成手法によりブラックボックス攻撃の有効性を高める。
この攻撃は推論中に目標出力を誘導し、asrのベースライン(+62.52\%)を大きく上回った。
さらに、さまざまなモデルスケールにわたる堅牢性や、コンテキスト内推論のシナリオも示しています。
関連論文リスト
- Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。