論文の概要: Web Artifact Attacks Disrupt Vision Language Models
- arxiv url: http://arxiv.org/abs/2503.13652v1
- Date: Mon, 17 Mar 2025 18:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:24.575346
- Title: Web Artifact Attacks Disrupt Vision Language Models
- Title(参考訳): Web ArtifactがDisrupt Vision Language Modelsを攻撃
- Authors: Maan Qraitem, Piotr Teterwak, Kate Saenko, Bryan A. Plummer,
- Abstract要約: 視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。
意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。
これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。
非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
- 参考スコア(独自算出の注目度): 61.59021920232986
- License:
- Abstract: Vision-language models (VLMs) (e.g., CLIP, LLaVA) are trained on large-scale, lightly curated web datasets, leading them to learn unintended correlations between semantic concepts and unrelated visual signals. These associations degrade model accuracy by causing predictions to rely on incidental patterns rather than genuine visual understanding. Prior work has weaponized these correlations as an attack vector to manipulate model predictions, such as inserting a deceiving class text onto the image in a typographic attack. These attacks succeed due to VLMs' text-heavy bias-a result of captions that echo visible words rather than describing content. However, this attack has focused solely on text that matches the target class exactly, overlooking a broader range of correlations, including non-matching text and graphical symbols, which arise from the abundance of branding content in web-scale data. To address this gap, we introduce artifact-based attacks: a novel class of manipulations that mislead models using both non-matching text and graphical elements. Unlike typographic attacks, these artifacts are not predefined, making them harder to defend against but also more challenging to find. We address this by framing artifact attacks as a search problem and demonstrate their effectiveness across five datasets, with some artifacts reinforcing each other to reach 100% attack success rates. These attacks transfer across models with up to 90% effectiveness, making it possible to attack unseen models. To defend against these attacks, we extend prior work's artifact aware prompting to the graphical setting. We see a moderate reduction of success rates of up to 15% relative to standard prompts, suggesting a promising direction for enhancing model robustness.
- Abstract(参考訳): 視覚言語モデル(VLM、CLIP、LLaVA)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練され、意味論的概念と無関係な視覚信号の間の意図しない相関関係を学習する。
これらの関連性は、真の視覚的理解ではなく、偶発的なパターンに依存するように予測することによって、モデルの精度を低下させる。
以前の研究は、これらの相関関係を攻撃ベクトルとして武器化し、タイポグラフィー攻撃で画像に決定的なクラステキストを挿入するなど、モデル予測を操作した。
これらの攻撃は、VLMsのテキスト重みバイアス(コンテンツを記述するのではなく、可視的な単語を反映するキャプションの結果)によって成功した。
しかし、この攻撃はターゲットクラスと正確に一致したテキストにのみ焦点を合わせており、Webスケールデータにおけるブランディングコンテンツの存在から生じる非マッチングテキストやグラフィカルシンボルなど、幅広い相関関係を見越している。
このギャップに対処するために、我々はアーティファクトベースの攻撃を導入した。非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作のクラスである。
タイポグラフィー・アタックとは異なり、これらのアーティファクトは事前に定義されていないため、防御が難しく、発見も困難である。
我々は,人工物攻撃を探索問題とみなし,その有効性を5つのデータセットで示すことでこの問題に対処する。
これらの攻撃は最大90%の有効性を持つモデル間で伝達され、見えないモデルを攻撃することができる。
これらの攻撃に対して防御するために、我々はグラフィカルな設定に即した作業のアーティファクトを拡張します。
標準的なプロンプトと比較して、成功率を最大15%程度低下させることで、モデルロバスト性を高めるための有望な方向性が示唆されている。
関連論文リスト
- Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [58.10730906004818]
画像に誤解を招くテキストを追加するタイポグラフィー攻撃は、視覚言語モデル(LVLM)を欺くことができる
実験の結果,これらの攻撃は分類性能を最大60%低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Robust Feature-Level Adversaries are Interpretability Tools [17.72884349429452]
イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創りだす最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。
これらの敵は、独自に多目的であり、非常に堅牢であることを示す。
ImageNetスケールでターゲット、普遍、偽装、物理的に実現可能、およびブラックボックス攻撃を生成するために使用できる。
論文 参考訳(メタデータ) (2021-10-07T16:33:11Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。