論文の概要: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- arxiv url: http://arxiv.org/abs/2402.00626v1
- Date: Thu, 1 Feb 2024 14:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:13:58.306823
- Title: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- Title(参考訳): vision-llmは自己生成型タイポグラフィー攻撃で自分を騙すことができる
- Authors: Maan Qraitem, Nazia Tasnim, Kate Saenko, Bryan A. Plummer
- Abstract要約: LVLM(Large Vision-Language Models)は、大規模な事前学習言語モデルを使用する。
タイポグラフィー攻撃は、誤解を招くテキストを画像に重ね込む。
以前の作業のタイポグラフィー攻撃は、事前に定義されたクラスのセットからランダムな誤解を招くクラスをサンプリングすることに依存する。
- 参考スコア(独自算出の注目度): 65.41022522612735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, significant progress has been made on Large Vision-Language Models
(LVLMs); a new class of VL models that make use of large pre-trained language
models. Yet, their vulnerability to Typographic attacks, which involve
superimposing misleading text onto an image remain unstudied. Furthermore,
prior work typographic attacks rely on sampling a random misleading class from
a predefined set of classes. However, the random chosen class might not be the
most effective attack. To address these issues, we first introduce a novel
benchmark uniquely designed to test LVLMs vulnerability to typographic attacks.
Furthermore, we introduce a new and more effective typographic attack:
Self-Generated typographic attacks. Indeed, our method, given an image, make
use of the strong language capabilities of models like GPT-4V by simply
prompting them to recommend a typographic attack. Using our novel benchmark, we
uncover that typographic attacks represent a significant threat against
LVLM(s). Furthermore, we uncover that typographic attacks recommended by GPT-4V
using our new method are not only more effective against GPT-4V itself compared
to prior work attacks, but also against a host of less capable yet popular open
source models like LLaVA, InstructBLIP, and MiniGPT4.
- Abstract(参考訳): 近年、大きな事前学習された言語モデルを利用する新しいvlモデルのクラスである large vision-language models (lvlms) が大きな進歩を遂げている。
しかし、Typographic攻撃に対する彼らの脆弱性は、誤解を招くテキストを画像にスーパーインポジションする。
さらに、事前の作業タイポグラフィー攻撃は、事前に定義されたクラスのセットからランダムな誤解を招くクラスをサンプリングすることに依存する。
しかし、ランダムに選ばれたクラスは最も効果的な攻撃ではないかもしれない。
これらの問題に対処するために,我々はまず,lvlms脆弱性をタイポグラフィー攻撃に対してテストするための新しいベンチマークを導入する。
さらに,新しい効果的なタイポグラフィー攻撃である自己生成タイポグラフィー攻撃について紹介する。
実際,本手法では,GPT-4Vのようなモデルに対して,タイポグラフィー攻撃を推奨するように促すことで,強力な言語機能を利用する。
新たなベンチマークを用いて,LVLM(s)に対するタイポグラフィー攻撃が重大な脅威であることを明らかにした。
さらに,本手法を用いてGPT-4Vが推奨するタイポグラフィー攻撃は,従来の作業攻撃に比べてGPT-4V自体に対して有効であるだけでなく,LLaVA,InstructBLIP,MiniGPT4といった,あまり有能でないオープンソースモデルに対しても有効であることがわかった。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks [52.29186466633699]
トランスファー可能な敵攻撃は、ブラックボックスのシナリオで敵が特定した予測を出力するモデルを誤解させることを目的としている。
textitsingle-target 生成攻撃は、高い転送可能な摂動を生成するために、各ターゲットクラスのジェネレータを訓練する。
textbfCLIP-guided textbfGenerative textbfNetwork with textbfCross-attention module (CGNC) to enhance multi-target attack。
論文 参考訳(メタデータ) (2024-07-14T12:30:32Z) - Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model [23.764618459753326]
タイポグラフィー攻撃はLVLMのセキュリティ上の脅威になると予想されている。
現在よく知られた商用およびオープンソースのLVLMに対するタイポグラフィー攻撃を検証する。
この脆弱性をよりよく評価するために,これまでで最も包括的で大規模なTypographicデータセットを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:31:56Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。