論文の概要: Towards Mechanistic Defenses Against Typographic Attacks in CLIP
- arxiv url: http://arxiv.org/abs/2508.20570v1
- Date: Thu, 28 Aug 2025 09:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.259895
- Title: Towards Mechanistic Defenses Against Typographic Attacks in CLIP
- Title(参考訳): CLIPにおけるタイポグラフィー攻撃に対する機械的防御に向けて
- Authors: Lorenz Hufe, Constantin Venhoff, Maximilian Dreyer, Sebastian Lapuschkin, Wojciech Samek,
- Abstract要約: タイポグラフィー攻撃下でのCLIP視覚エンコーダの挙動を解析する。
タイポグラフィ回路を選択的にブレイすることで,CLIPモデルに対するタイポグラフィ攻撃に対する防御手法を提案する。
タイポグラフィー攻撃に対して極めて堅牢なDyslexic CLIPモデル群をリリースする。
- 参考スコア(独自算出の注目度): 23.69564867168339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typographic attacks exploit multi-modal systems by injecting text into images, leading to targeted misclassifications, malicious content generation and even Vision-Language Model jailbreaks. In this work, we analyze how CLIP vision encoders behave under typographic attacks, locating specialized attention heads in the latter half of the model's layers that causally extract and transmit typographic information to the cls token. Building on these insights, we introduce a method to defend CLIP models against typographic attacks by selectively ablating a typographic circuit, consisting of attention heads. Without requiring finetuning, our method improves performance by up to 19.6% on a typographic variant of ImageNet-100, while reducing standard ImageNet-100 accuracy by less than 1%. Notably, our training-free approach remains competitive with current state-of-the-art typographic defenses that rely on finetuning. To this end, we release a family of dyslexic CLIP models which are significantly more robust against typographic attacks. These models serve as suitable drop-in replacements for a broad range of safety-critical applications, where the risks of text-based manipulation outweigh the utility of text recognition.
- Abstract(参考訳): タイポグラフィー攻撃は、画像にテキストを注入することでマルチモーダルシステムを悪用し、ターゲットの誤分類、悪意のあるコンテンツ生成、さらにはビジョンランゲージモデルジェイルブレイクに至る。
本研究では,CLIP視覚エンコーダのタイポグラフィー攻撃時の動作を解析し,入力情報をclsトークンに因果的に抽出・送信するモデルの後半層に特別な注意を向ける。
これらの知見に基づいて,注意頭からなるタイポグラフィ回路を選択的に非難することで,CLIPモデルをタイポグラフィー攻撃から防御する手法を提案する。
微調整を必要とせず、標準的なImageNet-100の精度を1%以下に抑えながら、画像Net-100のタイポグラフィ版の性能を最大19.6%向上させる。
特に、我々のトレーニングなしのアプローチは、ファインタニングに依存している現在の最先端のタイポグラフィーディフェンスと競合するままです。
この目的のために,タイポグラフィー攻撃に対して極めて堅牢なDyslexic CLIPモデル群を作成した。
これらのモデルは、テキストベースの操作のリスクが、テキスト認識の有用性を上回るような、幅広い安全クリティカルなアプリケーションに対して、適切なドロップイン置換として機能する。
関連論文リスト
- A Generative Adversarial Approach to Adversarial Attacks Guided by Contrastive Language-Image Pre-trained Model [12.15621649989295]
CLIPモデルを用いて、高効率で視覚的に知覚できない対人摂動を発生させる生成的対人攻撃法を提案する。
我々のアプローチは、サリエンシをベースとしたオートエンコーダからの集中摂動戦略と、GAMA(Generative Adversarial Multi-Object Scene Attacks)に似た異種テキスト埋め込みを統合する。
論文 参考訳(メタデータ) (2025-11-03T08:02:48Z) - Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文 参考訳(メタデータ) (2025-11-01T06:51:14Z) - SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models [1.0260880679794957]
タイポグラフィー攻撃は、マルチモーダル基礎モデルにおけるテキストと視覚コンテンツ間の相互作用を利用する。
SCAMは,これまでで最大かつ多種多様な実世界タイポグラフィー・アタック・イメージのデータセットである。
以上の結果から, タイポグラフィーによる攻撃は, 最先端の大規模視線モデルに対して有効であることが示唆された。
論文 参考訳(メタデータ) (2025-04-07T10:01:38Z) - Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。
意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。
これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。
非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作のクラスである「アーティファクトベース」アタックを導入する。
論文 参考訳(メタデータ) (2025-03-17T18:59:29Z) - Undermining Image and Text Classification Algorithms Using Adversarial Attacks [0.0]
本研究は,各種機械学習モデルを訓練し,GANとSMOTEを用いてテキスト分類モデルへの攻撃を目的とした追加データポイントを生成することにより,そのギャップを解消する。
実験の結果,分類モデルの重大な脆弱性が明らかとなった。特に,攻撃後の最上位のテキスト分類モデルの精度が20%低下し,顔認識精度が30%低下した。
論文 参考訳(メタデータ) (2024-11-03T18:44:28Z) - Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [58.10730906004818]
画像に誤解を招くテキストを追加するタイポグラフィー攻撃は、視覚言語モデル(LVLM)を欺くことができる
実験の結果,これらの攻撃は分類性能を最大60%低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。