論文の概要: SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2504.04893v2
- Date: Fri, 11 Apr 2025 09:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 10:55:41.356066
- Title: SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models
- Title(参考訳): SCAM:マルチモーダルファンデーションモデルのための実世界タイポグラフィロバストネス評価
- Authors: Justus Westerhoff, Erblina Purelku, Jakob Hackstein, Leo Pinetzki, Lorenz Hufe,
- Abstract要約: SCAMは,これまでで最大かつ多種多様な実世界タイポグラフィー・アタック・イメージのデータセットである。
以上の結果から,現状のLVLM(Large Vision-Language Models)では,視覚エンコーダの選択によりタイポグラフィー攻撃が継続していることが判明した。
合成攻撃は実世界(手書き)攻撃によく似ており、研究における使用の有効性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Typographic attacks exploit the interplay between text and visual content in multimodal foundation models, causing misclassifications when misleading text is embedded within images. However, existing datasets are limited in size and diversity, making it difficult to study such vulnerabilities. In this paper, we introduce SCAM, the largest and most diverse dataset of real-world typographic attack images to date, containing 1,162 images across hundreds of object categories and attack words. Through extensive benchmarking of Vision-Language Models (VLMs) on SCAM, we demonstrate that typographic attacks significantly degrade performance, and identify that training data and model architecture influence the susceptibility to these attacks. Our findings reveal that typographic attacks persist in state-of-the-art Large Vision-Language Models (LVLMs) due to the choice of their vision encoder, though larger Large Language Models (LLMs) backbones help mitigate their vulnerability. Additionally, we demonstrate that synthetic attacks closely resemble real-world (handwritten) attacks, validating their use in research. Our work provides a comprehensive resource and empirical insights to facilitate future research toward robust and trustworthy multimodal AI systems. We publicly release the datasets introduced in this paper under https://huggingface.co/datasets/BLISS-e-V/SCAM, along with the code for evaluations at https://github.com/Bliss-e-V/SCAM.
- Abstract(参考訳): タイポグラフィー攻撃は、マルチモーダル基礎モデルにおけるテキストと視覚的コンテンツ間の相互作用を利用しており、誤解を招くテキストが画像内に埋め込まれているときに誤分類を引き起こす。
しかし、既存のデータセットのサイズと多様性に制限があるため、そのような脆弱性を研究するのは困難である。
本稿では,現在最も多種多様な実世界型文字攻撃画像のデータセットであるSCAMを紹介し,数百の対象カテゴリにまたがる1,162のイメージと攻撃語を含む。
SCAM上での視覚言語モデル(VLM)の広範なベンチマークを通じて、タイポグラフィー攻撃が性能を著しく低下させ、トレーニングデータとモデルアーキテクチャがこれらの攻撃に対する感受性に影響を与えることを実証する。
以上の結果から,LVLM(Large Vision-Language Models)では視覚エンコーダの選択によりタイポグラフィー攻撃が継続することがわかった。
さらに,合成攻撃は実世界(手書き)攻撃とよく似ていることを実証し,研究における使用の有効性を検証した。
私たちの研究は、堅牢で信頼性の高いマルチモーダルAIシステムに向けた将来の研究を促進するための、包括的なリソースと実証的な洞察を提供する。
本稿では、この論文で導入されたデータセットを、https://huggingface.co/datasets/BLISS-e-V/SCAM、https://github.com/Bliss-e-V/SCAMで評価するためのコードで公開する。
関連論文リスト
- Robust image classification with multi-modal large language models [4.709926629434273]
逆の例では、ディープニューラルネットワークが不正確な予測を高い信頼性で行う可能性がある。
これらの脆弱性を軽減するために、事前にモデルを強化するために、敵の訓練と検出に基づく防御が提案されている。
本稿では,これらの防衛を多モード情報と組み合わせ,補完する新しい防衛手法であるMulti-Shieldを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:49:25Z) - Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models [0.0]
MLLM(Multi-Modal Language Models)は、視覚データとテキストデータを組み合わせた人工知能である。
攻撃者は視覚的またはテキスト的な入力を操作するか、あるいは両方を操作して、意図しないあるいは有害な応答をモデルに生成させる。
本稿では,MLLMの視覚的入力が様々な攻撃戦略によってどのように活用できるかを概説する。
論文 参考訳(メタデータ) (2024-11-07T16:21:18Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model [23.764618459753326]
タイポグラフィー攻撃はLVLMのセキュリティ上の脅威になると予想されている。
現在よく知られた商用およびオープンソースのLVLMに対するタイポグラフィー攻撃を検証する。
この脆弱性をよりよく評価するために,これまでで最も包括的で大規模なTypographicデータセットを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:31:56Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。