論文の概要: InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2312.01886v2
- Date: Thu, 4 Jan 2024 06:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:54:03.162402
- Title: InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language
Models
- Title(参考訳): インストラクタ:大規模視覚言語モデルに対する命令調整型ターゲットアタック
- Authors: Xunguang Wang, Zhenlan Ji, Pingchuan Ma, Zongjie Li, Shuai Wang
- Abstract要約: 大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者のLVLMの視覚的エンコーダにのみアクセス可能な,斬新で実用的なグレーボックス攻撃シナリオを定式化する。
本研究では,LVLMに対して高い伝達性を有する目標対向攻撃を実現するために,命令調整型目標攻撃(InstructTA)を提案する。
- 参考スコア(独自算出の注目度): 14.181022690391318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have demonstrated their incredible
capability in image understanding and response generation. However, this rich
visual interaction also makes LVLMs vulnerable to adversarial examples. In this
paper, we formulate a novel and practical gray-box attack scenario that the
adversary can only access the visual encoder of the victim LVLM, without the
knowledge of its prompts (which are often proprietary for service providers and
not publicly available) and its underlying large language model (LLM). This
practical setting poses challenges to the cross-prompt and cross-model
transferability of targeted adversarial attack, which aims to confuse the LVLM
to output a response that is semantically similar to the attacker's chosen
target text. To this end, we propose an instruction-tuned targeted attack
(dubbed InstructTA) to deliver the targeted adversarial attack on LVLMs with
high transferability. Initially, we utilize a public text-to-image generative
model to "reverse" the target response into a target image, and employ GPT-4 to
infer a reasonable instruction $\boldsymbol{p}^\prime$ from the target
response. We then form a local surrogate model (sharing the same visual encoder
with the victim LVLM) to extract instruction-aware features of an adversarial
image example and the target image, and minimize the distance between these two
features to optimize the adversarial example. To further improve the
transferability, we augment the instruction $\boldsymbol{p}^\prime$ with
instructions paraphrased from an LLM. Extensive experiments demonstrate the
superiority of our proposed method in targeted attack performance and
transferability.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
しかし、このリッチな視覚相互作用により、LVLMは敵の例に弱い。
本稿では,そのプロンプト(しばしばサービスプロバイダにプロプライエタリであり,一般には公開されていない)とその基盤となる大規模言語モデル(llm)を知らずに,敵が被害者のlvlmの視覚エンコーダにのみアクセス可能な,新規かつ実用的なグレイボックス攻撃シナリオを定式化する。
この実践的な設定は、攻撃者が選択したターゲットテキストにセマンティックに類似した応答を出力するためにLVLMを混乱させることを目的とした、攻撃対象の敵攻撃のクロスプロンプトおよびクロスモデル転送可能性に課題をもたらす。
そこで本研究では,LVLMに対して高転送性で目標対向攻撃を行うための命令調整型目標攻撃(InstructTA)を提案する。
当初、ターゲット画像にターゲット応答を"反転"するために、パブリックテキスト・画像生成モデルを使用し、GPT-4を用いて、ターゲット応答から適切な命令 $\boldsymbol{p}^\prime$ を推論する。
次に,同一の視覚エンコーダを被害者のLVLMと共有する局所代理モデルを構築し,対向画像例と対象画像の特徴を抽出し,両特徴間の距離を最小化し,対向画像例を最適化する。
転送性をさらに向上するために、 LLM からパラメタした命令で $\boldsymbol{p}^\prime$ を加算する。
大規模実験により,攻撃性能と伝達性において提案手法の優位性を実証した。
関連論文リスト
- Replace-then-Perturb: Targeted Adversarial Attacks With Visual Reasoning for Vision-Language Models [6.649753747542211]
本稿では,新たな敵攻撃手法であるReplace-then-PerturbとContrastive-Advを提案する。
Replace-then-Perturbでは、まずテキスト誘導セグメンテーションモデルを用いて画像中の対象物を見つける。
これにより、元の画像の全体的な完全性を維持しつつ、所望のプロンプトに対応するターゲット画像を生成することができる。
論文 参考訳(メタデータ) (2024-11-01T04:50:08Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens [28.356269620160937]
我々は、勾配に基づく摂動を利用して、ターゲットトークンを視覚的・テキスト的両方の文脈に注入するコンテキストインジェクション攻撃(CIA)を提案する。
CIAは敵画像のクロスプロンプト転送性を高める。
論文 参考訳(メタデータ) (2024-06-19T07:32:55Z) - Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。