論文の概要: InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2312.01886v2
- Date: Thu, 4 Jan 2024 06:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:54:03.162402
- Title: InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language
Models
- Title(参考訳): インストラクタ:大規模視覚言語モデルに対する命令調整型ターゲットアタック
- Authors: Xunguang Wang, Zhenlan Ji, Pingchuan Ma, Zongjie Li, Shuai Wang
- Abstract要約: 大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者のLVLMの視覚的エンコーダにのみアクセス可能な,斬新で実用的なグレーボックス攻撃シナリオを定式化する。
本研究では,LVLMに対して高い伝達性を有する目標対向攻撃を実現するために,命令調整型目標攻撃(InstructTA)を提案する。
- 参考スコア(独自算出の注目度): 14.181022690391318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have demonstrated their incredible
capability in image understanding and response generation. However, this rich
visual interaction also makes LVLMs vulnerable to adversarial examples. In this
paper, we formulate a novel and practical gray-box attack scenario that the
adversary can only access the visual encoder of the victim LVLM, without the
knowledge of its prompts (which are often proprietary for service providers and
not publicly available) and its underlying large language model (LLM). This
practical setting poses challenges to the cross-prompt and cross-model
transferability of targeted adversarial attack, which aims to confuse the LVLM
to output a response that is semantically similar to the attacker's chosen
target text. To this end, we propose an instruction-tuned targeted attack
(dubbed InstructTA) to deliver the targeted adversarial attack on LVLMs with
high transferability. Initially, we utilize a public text-to-image generative
model to "reverse" the target response into a target image, and employ GPT-4 to
infer a reasonable instruction $\boldsymbol{p}^\prime$ from the target
response. We then form a local surrogate model (sharing the same visual encoder
with the victim LVLM) to extract instruction-aware features of an adversarial
image example and the target image, and minimize the distance between these two
features to optimize the adversarial example. To further improve the
transferability, we augment the instruction $\boldsymbol{p}^\prime$ with
instructions paraphrased from an LLM. Extensive experiments demonstrate the
superiority of our proposed method in targeted attack performance and
transferability.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
しかし、このリッチな視覚相互作用により、LVLMは敵の例に弱い。
本稿では,そのプロンプト(しばしばサービスプロバイダにプロプライエタリであり,一般には公開されていない)とその基盤となる大規模言語モデル(llm)を知らずに,敵が被害者のlvlmの視覚エンコーダにのみアクセス可能な,新規かつ実用的なグレイボックス攻撃シナリオを定式化する。
この実践的な設定は、攻撃者が選択したターゲットテキストにセマンティックに類似した応答を出力するためにLVLMを混乱させることを目的とした、攻撃対象の敵攻撃のクロスプロンプトおよびクロスモデル転送可能性に課題をもたらす。
そこで本研究では,LVLMに対して高転送性で目標対向攻撃を行うための命令調整型目標攻撃(InstructTA)を提案する。
当初、ターゲット画像にターゲット応答を"反転"するために、パブリックテキスト・画像生成モデルを使用し、GPT-4を用いて、ターゲット応答から適切な命令 $\boldsymbol{p}^\prime$ を推論する。
次に,同一の視覚エンコーダを被害者のLVLMと共有する局所代理モデルを構築し,対向画像例と対象画像の特徴を抽出し,両特徴間の距離を最小化し,対向画像例を最適化する。
転送性をさらに向上するために、 LLM からパラメタした命令で $\boldsymbol{p}^\prime$ を加算する。
大規模実験により,攻撃性能と伝達性において提案手法の優位性を実証した。
関連論文リスト
- VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Hijacking Large Language Models via Adversarial In-Context Learning [9.161967285486051]
本研究は,LSMをハイジャックして標的とする応答を発生させることを目的として,ICLに新たなトランスファー可能な攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。