論文の概要: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- arxiv url: http://arxiv.org/abs/2402.00626v2
- Date: Fri, 16 Feb 2024 15:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:08:07.318631
- Title: Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks
- Title(参考訳): vision-llmは自己生成型タイポグラフィー攻撃で自分を騙すことができる
- Authors: Maan Qraitem, Nazia Tasnim, Piotr Teterwak, Kate Saenko, Bryan A.
Plummer
- Abstract要約: 誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
- 参考スコア(独自算出の注目度): 62.34019142949628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typographic Attacks, which involve pasting misleading text onto an image,
were noted to harm the performance of Vision-Language Models like CLIP.
However, the susceptibility of recent Large Vision-Language Models to these
attacks remains understudied. Furthermore, prior work's Typographic attacks
against CLIP randomly sample a misleading class from a predefined set of
categories. However, this simple strategy misses more effective attacks that
exploit LVLM(s) stronger language skills. To address these issues, we first
introduce a benchmark for testing Typographic attacks against LVLM(s).
Moreover, we introduce two novel and more effective \textit{Self-Generated}
attacks which prompt the LVLM to generate an attack against itself: 1) Class
Based Attack where the LVLM (e.g. LLaVA) is asked which deceiving class is most
similar to the target class and 2) Descriptive Attacks where a more advanced
LVLM (e.g. GPT4-V) is asked to recommend a Typographic attack that includes
both a deceiving class and description. Using our benchmark, we uncover that
Self-Generated attacks pose a significant threat, reducing LVLM(s)
classification performance by up to 33\%. We also uncover that attacks
generated by one model (e.g. GPT-4V or LLaVA) are effective against the model
itself and other models like InstructBLIP and MiniGPT4. Code:
\url{https://github.com/mqraitem/Self-Gen-Typo-Attack}
- Abstract(参考訳): 誤読テキストを画像に貼り付けるタイポグラフィー攻撃は、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
しかし、近年の大規模視覚言語モデルのこれらの攻撃に対する感受性は未定である。
さらに、CLIPに対する以前の作業のTypographic攻撃は、事前に定義されたカテゴリセットから誤解を招くクラスをランダムにサンプリングする。
しかし、この単純な戦略はLVLM(s)より強力な言語スキルを利用するより効果的な攻撃を見逃している。
これらの問題に対処するため,我々はまずLVLM(s)に対するタイポグラフィー攻撃のベンチマークを導入する。
さらに、LVLMに攻撃を起こさせる2つの新しい、より効果的な \textit{Self-Generated} 攻撃を導入する。
1) lvlm(例えば、llava)がターゲットクラスに最も近いクラスを欺くかを尋ねられるクラスベースの攻撃
2)より先進的なLVLM(例:GPT4-V)を推奨する記述的攻撃(Descriptive Attacks)は、クラスと記述の両方を含むタイポグラフィ攻撃を推奨する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
また,1つのモデル(gpt-4vやllavaなど)が生成する攻撃が,モデル自体やinstructblipやminigpt4といった他のモデルに対して有効であることも明らかにする。
コード: \url{https://github.com/mqraitem/Self-Gen-Typo-Attack}
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks [52.29186466633699]
トランスファー可能な敵攻撃は、ブラックボックスのシナリオで敵が特定した予測を出力するモデルを誤解させることを目的としている。
textitsingle-target 生成攻撃は、高い転送可能な摂動を生成するために、各ターゲットクラスのジェネレータを訓練する。
textbfCLIP-guided textbfGenerative textbfNetwork with textbfCross-attention module (CGNC) to enhance multi-target attack。
論文 参考訳(メタデータ) (2024-07-14T12:30:32Z) - Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。
攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model [23.764618459753326]
タイポグラフィー攻撃はLVLMのセキュリティ上の脅威になると予想されている。
現在よく知られた商用およびオープンソースのLVLMに対するタイポグラフィー攻撃を検証する。
この脆弱性をよりよく評価するために,これまでで最も包括的で大規模なTypographicデータセットを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:31:56Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。