論文の概要: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- arxiv url: http://arxiv.org/abs/2402.00626v2
- Date: Fri, 16 Feb 2024 15:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:08:07.318631
- Title: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- Title(参考訳): vision-llmは自己生成型タイポグラフィー攻撃で自分を騙すことができる
- Authors: Maan Qraitem, Nazia Tasnim, Piotr Teterwak, Kate Saenko, Bryan A.
Plummer
- Abstract要約: 誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
- 参考スコア(独自算出の注目度): 62.34019142949628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typographic Attacks, which involve pasting misleading text onto an image,
were noted to harm the performance of Vision-Language Models like CLIP.
However, the susceptibility of recent Large Vision-Language Models to these
attacks remains understudied. Furthermore, prior work's Typographic attacks
against CLIP randomly sample a misleading class from a predefined set of
categories. However, this simple strategy misses more effective attacks that
exploit LVLM(s) stronger language skills. To address these issues, we first
introduce a benchmark for testing Typographic attacks against LVLM(s).
Moreover, we introduce two novel and more effective \textit{Self-Generated}
attacks which prompt the LVLM to generate an attack against itself: 1) Class
Based Attack where the LVLM (e.g. LLaVA) is asked which deceiving class is most
similar to the target class and 2) Descriptive Attacks where a more advanced
LVLM (e.g. GPT4-V) is asked to recommend a Typographic attack that includes
both a deceiving class and description. Using our benchmark, we uncover that
Self-Generated attacks pose a significant threat, reducing LVLM(s)
classification performance by up to 33\%. We also uncover that attacks
generated by one model (e.g. GPT-4V or LLaVA) are effective against the model
itself and other models like InstructBLIP and MiniGPT4. Code:
\url{https://github.com/mqraitem/Self-Gen-Typo-Attack}
- Abstract(参考訳): 誤読テキストを画像に貼り付けるタイポグラフィー攻撃は、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
しかし、近年の大規模視覚言語モデルのこれらの攻撃に対する感受性は未定である。
さらに、CLIPに対する以前の作業のTypographic攻撃は、事前に定義されたカテゴリセットから誤解を招くクラスをランダムにサンプリングする。
しかし、この単純な戦略はLVLM(s)より強力な言語スキルを利用するより効果的な攻撃を見逃している。
これらの問題に対処するため,我々はまずLVLM(s)に対するタイポグラフィー攻撃のベンチマークを導入する。
さらに、LVLMに攻撃を起こさせる2つの新しい、より効果的な \textit{Self-Generated} 攻撃を導入する。
1) lvlm(例えば、llava)がターゲットクラスに最も近いクラスを欺くかを尋ねられるクラスベースの攻撃
2)より先進的なLVLM(例:GPT4-V)を推奨する記述的攻撃(Descriptive Attacks)は、クラスと記述の両方を含むタイポグラフィ攻撃を推奨する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
また,1つのモデル(gpt-4vやllavaなど)が生成する攻撃が,モデル自体やinstructblipやminigpt4といった他のモデルに対して有効であることも明らかにする。
コード: \url{https://github.com/mqraitem/Self-Gen-Typo-Attack}
関連論文リスト
- Typographic Attacks in a Multi-Image Setting [2.9154316123656927]
タイポグラフィー攻撃の研究のためのマルチイメージ設定を提案する。
具体的には、アタッククエリを繰り返すことなく、イメージセットをアタックすることに重点を置いています。
対象画像の難易度,攻撃テキストの強度,テキスト画像の類似性を活用し,マルチイメージ設定のための2つの攻撃戦略を導入する。
論文 参考訳(メタデータ) (2025-02-12T08:10:25Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks [10.290050493635343]
敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
文字レベルの攻撃は通常入力ストリームにタイプミスを挿入する。
トレーニングされていない反復的アプローチは,3ショット学習によって指導されるヒトの群集労働者と同等に実行可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T20:21:03Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。