論文の概要: Towards Mechanistic Defenses Against Typographic Attacks in CLIP
- arxiv url: http://arxiv.org/abs/2508.20570v1
- Date: Thu, 28 Aug 2025 09:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.259895
- Title: Towards Mechanistic Defenses Against Typographic Attacks in CLIP
- Title(参考訳): CLIPにおけるタイポグラフィー攻撃に対する機械的防御に向けて
- Authors: Lorenz Hufe, Constantin Venhoff, Maximilian Dreyer, Sebastian Lapuschkin, Wojciech Samek,
- Abstract要約: タイポグラフィー攻撃下でのCLIP視覚エンコーダの挙動を解析する。
タイポグラフィ回路を選択的にブレイすることで,CLIPモデルに対するタイポグラフィ攻撃に対する防御手法を提案する。
タイポグラフィー攻撃に対して極めて堅牢なDyslexic CLIPモデル群をリリースする。
- 参考スコア(独自算出の注目度): 23.69564867168339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typographic attacks exploit multi-modal systems by injecting text into images, leading to targeted misclassifications, malicious content generation and even Vision-Language Model jailbreaks. In this work, we analyze how CLIP vision encoders behave under typographic attacks, locating specialized attention heads in the latter half of the model's layers that causally extract and transmit typographic information to the cls token. Building on these insights, we introduce a method to defend CLIP models against typographic attacks by selectively ablating a typographic circuit, consisting of attention heads. Without requiring finetuning, our method improves performance by up to 19.6% on a typographic variant of ImageNet-100, while reducing standard ImageNet-100 accuracy by less than 1%. Notably, our training-free approach remains competitive with current state-of-the-art typographic defenses that rely on finetuning. To this end, we release a family of dyslexic CLIP models which are significantly more robust against typographic attacks. These models serve as suitable drop-in replacements for a broad range of safety-critical applications, where the risks of text-based manipulation outweigh the utility of text recognition.
- Abstract(参考訳): タイポグラフィー攻撃は、画像にテキストを注入することでマルチモーダルシステムを悪用し、ターゲットの誤分類、悪意のあるコンテンツ生成、さらにはビジョンランゲージモデルジェイルブレイクに至る。
本研究では,CLIP視覚エンコーダのタイポグラフィー攻撃時の動作を解析し,入力情報をclsトークンに因果的に抽出・送信するモデルの後半層に特別な注意を向ける。
これらの知見に基づいて,注意頭からなるタイポグラフィ回路を選択的に非難することで,CLIPモデルをタイポグラフィー攻撃から防御する手法を提案する。
微調整を必要とせず、標準的なImageNet-100の精度を1%以下に抑えながら、画像Net-100のタイポグラフィ版の性能を最大19.6%向上させる。
特に、我々のトレーニングなしのアプローチは、ファインタニングに依存している現在の最先端のタイポグラフィーディフェンスと競合するままです。
この目的のために,タイポグラフィー攻撃に対して極めて堅牢なDyslexic CLIPモデル群を作成した。
これらのモデルは、テキストベースの操作のリスクが、テキスト認識の有用性を上回るような、幅広い安全クリティカルなアプリケーションに対して、適切なドロップイン置換として機能する。
関連論文リスト
- Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。
意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。
これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。
非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作のクラスである「アーティファクトベース」アタックを導入する。
論文 参考訳(メタデータ) (2025-03-17T18:59:29Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [58.10730906004818]
画像に誤解を招くテキストを追加するタイポグラフィー攻撃は、視覚言語モデル(LVLM)を欺くことができる
実験の結果,これらの攻撃は分類性能を最大60%低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。