論文の概要: Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models
- arxiv url: http://arxiv.org/abs/2503.11519v1
- Date: Fri, 14 Mar 2025 15:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:16.782108
- Title: Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models
- Title(参考訳): マルチモーダル生成モデルにおけるタイポグラフィー型ビジュアルプロンプト注入脅威の探索
- Authors: Hao Cheng, Erjia Xiao, Yichi Wang, Kaidi Xu, Mengshu Sun, Jindong Gu, Renjing Xu,
- Abstract要約: Vision-Language Perceptionと Image-to-Imageを含むクロスビジョンが注目されている。
従来の研究では、入力画像にタイポグラフィー語を印刷すると、LVLMやI2I GMが顕著に誘導され、それらの単語に意味のある破壊的な出力が生成されることが示されている。
視覚的プロンプトは、タイポグラフィーのより洗練された形態として、画像に注入された時に生成タスクの様々なアプリケーションにセキュリティ上のリスクをもたらすことが明らかにされている。
- 参考スコア(独自算出の注目度): 24.076565048125975
- License:
- Abstract: Current Cross-Modality Generation Models (GMs) demonstrate remarkable capabilities in various generative tasks. Given the ubiquity and information richness of vision modality inputs in real-world scenarios, Cross-vision, encompassing Vision-Language Perception (VLP) and Image-to-Image (I2I), tasks have attracted significant attention. Large Vision Language Models (LVLMs) and I2I GMs are employed to handle VLP and I2I tasks, respectively. Previous research indicates that printing typographic words into input images significantly induces LVLMs and I2I GMs to generate disruptive outputs semantically related to those words. Additionally, visual prompts, as a more sophisticated form of typography, are also revealed to pose security risks to various applications of VLP tasks when injected into images. In this paper, we comprehensively investigate the performance impact induced by Typographic Visual Prompt Injection (TVPI) in various LVLMs and I2I GMs. To better observe performance modifications and characteristics of this threat, we also introduce the TVPI Dataset. Through extensive explorations, we deepen the understanding of the underlying causes of the TVPI threat in various GMs and offer valuable insights into its potential origins.
- Abstract(参考訳): 現在のGM(Cross-Modality Generation Models)は、様々な生成タスクにおいて顕著な能力を示す。
実世界のシナリオにおける視覚モダリティ入力の普遍性と情報豊かさから、視覚言語知覚(VLP)と画像画像認識(I2I)を含むクロスビジョンは、タスクに大きな注目を集めている。
大型ビジョン言語モデル (LVLM) と I2I GM は、それぞれ VLP と I2I のタスクを扱うために使用される。
従来の研究では、入力画像にタイポグラフィー語を印刷すると、LVLMやI2I GMが顕著に誘導され、それらの単語に意味のある破壊的な出力が生成されることが示されている。
さらに、視覚的なプロンプトは、より洗練されたタイポグラフィーとして、画像に注入されたVLPタスクの様々なアプリケーションにセキュリティ上のリスクをもたらすことが明らかにされている。
本稿では,様々なLVLMおよびI2I GMにおいて,Typographic Visual Prompt Injection (TVPI) によって誘発されるパフォーマンスへの影響を包括的に検討する。
また,この脅威の特性や性能の変化をよりよく観察するため,TVPIデータセットも導入する。
広範な調査を通じて、様々なGMにおけるTVPI脅威の根本原因の理解を深め、その潜在的な起源について貴重な洞察を提供する。
関連論文リスト
- TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model [23.764618459753326]
タイポグラフィー攻撃はLVLMのセキュリティ上の脅威になると予想されている。
現在よく知られた商用およびオープンソースのLVLMに対するタイポグラフィー攻撃を検証する。
この脆弱性をよりよく評価するために,これまでで最も包括的で大規模なTypographicデータセットを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:31:56Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - SurgicalGPT: End-to-End Language-Vision GPT for Visual Question
Answering in Surgery [15.490603884631764]
我々は、GPT2モデルを拡張して視覚入力(画像)を含むエンドツーエンドのトレーニング可能な言語ビジョンGPTモデルを開発する。
LV-GPTモデルは、2つの公開可能な手術用VQAデータセットにおいて、他の最先端のVQAモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-19T21:22:52Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。