論文の概要: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- arxiv url: http://arxiv.org/abs/2402.00626v1
- Date: Thu, 1 Feb 2024 14:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:13:58.306823
- Title: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- Title(参考訳): vision-llmは自己生成型タイポグラフィー攻撃で自分を騙すことができる
- Authors: Maan Qraitem, Nazia Tasnim, Kate Saenko, Bryan A. Plummer
- Abstract要約: LVLM(Large Vision-Language Models)は、大規模な事前学習言語モデルを使用する。
タイポグラフィー攻撃は、誤解を招くテキストを画像に重ね込む。
以前の作業のタイポグラフィー攻撃は、事前に定義されたクラスのセットからランダムな誤解を招くクラスをサンプリングすることに依存する。
- 参考スコア(独自算出の注目度): 65.41022522612735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, significant progress has been made on Large Vision-Language Models
(LVLMs); a new class of VL models that make use of large pre-trained language
models. Yet, their vulnerability to Typographic attacks, which involve
superimposing misleading text onto an image remain unstudied. Furthermore,
prior work typographic attacks rely on sampling a random misleading class from
a predefined set of classes. However, the random chosen class might not be the
most effective attack. To address these issues, we first introduce a novel
benchmark uniquely designed to test LVLMs vulnerability to typographic attacks.
Furthermore, we introduce a new and more effective typographic attack:
Self-Generated typographic attacks. Indeed, our method, given an image, make
use of the strong language capabilities of models like GPT-4V by simply
prompting them to recommend a typographic attack. Using our novel benchmark, we
uncover that typographic attacks represent a significant threat against
LVLM(s). Furthermore, we uncover that typographic attacks recommended by GPT-4V
using our new method are not only more effective against GPT-4V itself compared
to prior work attacks, but also against a host of less capable yet popular open
source models like LLaVA, InstructBLIP, and MiniGPT4.
- Abstract(参考訳): 近年、大きな事前学習された言語モデルを利用する新しいvlモデルのクラスである large vision-language models (lvlms) が大きな進歩を遂げている。
しかし、Typographic攻撃に対する彼らの脆弱性は、誤解を招くテキストを画像にスーパーインポジションする。
さらに、事前の作業タイポグラフィー攻撃は、事前に定義されたクラスのセットからランダムな誤解を招くクラスをサンプリングすることに依存する。
しかし、ランダムに選ばれたクラスは最も効果的な攻撃ではないかもしれない。
これらの問題に対処するために,我々はまず,lvlms脆弱性をタイポグラフィー攻撃に対してテストするための新しいベンチマークを導入する。
さらに,新しい効果的なタイポグラフィー攻撃である自己生成タイポグラフィー攻撃について紹介する。
実際,本手法では,GPT-4Vのようなモデルに対して,タイポグラフィー攻撃を推奨するように促すことで,強力な言語機能を利用する。
新たなベンチマークを用いて,LVLM(s)に対するタイポグラフィー攻撃が重大な脅威であることを明らかにした。
さらに,本手法を用いてGPT-4Vが推奨するタイポグラフィー攻撃は,従来の作業攻撃に比べてGPT-4V自体に対して有効であるだけでなく,LLaVA,InstructBLIP,MiniGPT4といった,あまり有能でないオープンソースモデルに対しても有効であることがわかった。
関連論文リスト
- Typographic Attacks in a Multi-Image Setting [2.9154316123656927]
タイポグラフィー攻撃の研究のためのマルチイメージ設定を提案する。
具体的には、アタッククエリを繰り返すことなく、イメージセットをアタックすることに重点を置いています。
対象画像の難易度,攻撃テキストの強度,テキスト画像の類似性を活用し,マルチイメージ設定のための2つの攻撃戦略を導入する。
論文 参考訳(メタデータ) (2025-02-12T08:10:25Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks [10.290050493635343]
敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
文字レベルの攻撃は通常入力ストリームにタイプミスを挿入する。
トレーニングされていない反復的アプローチは,3ショット学習によって指導されるヒトの群集労働者と同等に実行可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T20:21:03Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。