論文の概要: Typographic Attacks in Large Multimodal Models Can be Alleviated by More
Informative Prompts
- arxiv url: http://arxiv.org/abs/2402.19150v1
- Date: Thu, 29 Feb 2024 13:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:44:54.417481
- Title: Typographic Attacks in Large Multimodal Models Can be Alleviated by More
Informative Prompts
- Title(参考訳): 大規模マルチモーダルモデルのタイポグラフィー攻撃はよりインフォームティブなプロンプトによって軽減される
- Authors: Hao Cheng, Erjia Xiao, Renjing Xu
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、驚くべき創発的能力を達成するために、事前訓練されたビジョン言語モデル(VLM)と大規模言語モデル(LLM)に依存します。
破壊的なToVLMを示すTypographic Attackも、LMMのセキュリティ脆弱性として認定されている。
本研究では, まず, タイポグラフィーによるLMMの分散性について総合的に検討する。
- 参考スコア(独自算出の注目度): 4.386501770716732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) rely on pre-trained Vision Language Models
(VLMs) and Large Language Models (LLMs) to perform amazing emergent abilities
on various multimodal tasks in the joint space of vision and language. However,
the Typographic Attack, which shows disruption to VLMs, has also been certified
as a security vulnerability to LMMs. In this work, we first comprehensively
investigate the distractibility of LMMs by typography. In particular, we
introduce the Typographic Dataset designed to evaluate distractibility across
various multi-modal subtasks, such as object recognition, visual attributes
detection, enumeration, arithmetic computation, and commonsense reasoning. To
further study the effect of typographic patterns on performance, we also
scrutinize the effect of tuning various typographic factors, encompassing font
size, color, opacity, and spatial positioning of typos. We discover that LMMs
can partially distinguish visual contents and typos when confronting
typographic attacks, which suggests that embeddings from vision encoders
contain enough information to distinguish visual contents and typos in images.
Inspired by such phenomena, we demonstrate that CLIP's performance of zero-shot
classification on typo-ridden images can be significantly improved by providing
more informative texts to match images. Furthermore, we also prove that LMMs
can utilize more informative prompts to leverage information in embeddings to
differentiate between visual content and typos. Finally, we propose a prompt
information enhancement method that can effectively mitigate the effects of
typography.
- Abstract(参考訳): 大規模マルチモーダルモデル(lmms)は、事前訓練されたビジョン言語モデル(vlms)と大規模言語モデル(llm)に依存しており、視覚と言語の共同分野における様々なマルチモーダルタスクにおいて驚くべき創発的な能力を発揮する。
しかし、VLMの破壊を示すタイポグラフィー攻撃もLMMのセキュリティ脆弱性として認定されている。
本研究では, まず, タイポグラフィーによるLMMの分散性について検討する。
特に,オブジェクト認識,視覚属性検出,列挙,算術計算,常識推論など,様々なマルチモーダルサブタスク間の注意散逸性を評価するためのタイポグラフィーデータセットを提案する。
さらに,タイポスの性能に及ぼすタイポグラフィーパターンの影響について検討するため,タイポスのフォントサイズ,色,不透明度,空間的位置決めなど,様々なタイポグラフィー因子のチューニングの効果についても検討した。
視覚エンコーダからの埋め込みには視覚内容と画像のタイポスを区別するのに十分な情報が含まれていることが示唆された。
このような現象に触発されて,タイポライド画像におけるクリップのゼロショット分類の性能が,画像にマッチする情報テキストを提供することで著しく向上することを示す。
さらに,LMMが視覚コンテンツとタイポスを区別するために,より情報的なプロンプトを活用できることを示す。
最後に,タイポグラフィーの効果を効果的に軽減できる簡易情報拡張手法を提案する。
関連論文リスト
- AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。
我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。
ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。