論文の概要: SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments
- arxiv url: http://arxiv.org/abs/2412.00114v1
- Date: Thu, 28 Nov 2024 05:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:11.812031
- Title: SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments
- Title(参考訳): SceneTAP:実環境における視覚言語モデルに対するScene-Coherent Typographic Adversarial Planner
- Authors: Yue Cao, Yun Xing, Jie Zhang, Di Lin, Tianwei Zhang, Ivor Tsang, Yang Liu, Qing Guo,
- Abstract要約: 本稿では,先進的な視覚言語モデルに誤解をもたらすような,シーンコヒーレントな対角攻撃を生成するための最初のアプローチを提案する。
提案手法は,どのテキストを生成するか,どのテキストをシーンに配置するか,どのようにシームレスに統合するかという,3つの重要な問題に対処する。
実験の結果,我々のシーンコヒーレントな敵対的テキストは,最先端のLVLMを誤解させることに成功した。
- 参考スコア(独自算出の注目度): 29.107550321162122
- License:
- Abstract: Large vision-language models (LVLMs) have shown remarkable capabilities in interpreting visual content. While existing works demonstrate these models' vulnerability to deliberately placed adversarial texts, such texts are often easily identifiable as anomalous. In this paper, we present the first approach to generate scene-coherent typographic adversarial attacks that mislead advanced LVLMs while maintaining visual naturalness through the capability of the LLM-based agent. Our approach addresses three critical questions: what adversarial text to generate, where to place it within the scene, and how to integrate it seamlessly. We propose a training-free, multi-modal LLM-driven scene-coherent typographic adversarial planning (SceneTAP) that employs a three-stage process: scene understanding, adversarial planning, and seamless integration. The SceneTAP utilizes chain-of-thought reasoning to comprehend the scene, formulate effective adversarial text, strategically plan its placement, and provide detailed instructions for natural integration within the image. This is followed by a scene-coherent TextDiffuser that executes the attack using a local diffusion mechanism. We extend our method to real-world scenarios by printing and placing generated patches in physical environments, demonstrating its practical implications. Extensive experiments show that our scene-coherent adversarial text successfully misleads state-of-the-art LVLMs, including ChatGPT-4o, even after capturing new images of physical setups. Our evaluations demonstrate a significant increase in attack success rates while maintaining visual naturalness and contextual appropriateness. This work highlights vulnerabilities in current vision-language models to sophisticated, scene-coherent adversarial attacks and provides insights into potential defense mechanisms.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、視覚内容の解釈において顕著な能力を示した。
既存の研究は、これらのモデルが意図的に敵対的テキストを配置する脆弱性を実証しているが、そのようなテキストはしばしば異常として容易に識別できる。
本稿では,LLMをベースとしたエージェントの能力によって視覚的自然性を維持しつつ,先進的なLVLMを誤解させるような,シーンコヒーレントな対角攻撃を生成するための最初のアプローチを提案する。
提案手法は,どのテキストを生成するか,どのテキストをシーンに配置するか,どのようにシームレスに統合するかという,3つの重要な問題に対処する。
本研究では,3段階のプロセス(シーン理解,対角計画,シームレスな統合)を取り入れた,学習不要でマルチモーダルなLDM駆動型シーンコヒーレント型文字対向計画(SceneTAP)を提案する。
SceneTAPは、シーンを理解し、効果的な敵のテキストを定式化し、配置を戦略的に計画し、画像内の自然な統合のための詳細な説明を提供する。
次に、ローカル拡散機構を使用して攻撃を実行するシーンコヒーレントなTextDiffuserが続く。
我々は,本手法を実世界のシナリオに拡張し,物理的環境に生成したパッチを印刷・配置し,その実用的意義を実証する。
広汎な実験により,我々のシーンコヒーレントな敵対的テキストは,ChatGPT-4oを含む最先端のLVLMを物理的セットアップの新たなイメージを捉えた後でも誤認することに成功した。
本評価は,視覚的自然性と文脈的適切性を維持しながら,攻撃成功率を著しく向上させることを示す。
この研究は、現在の視覚言語モデルにおける脆弱性を、洗練されたシーンコヒーレントな敵攻撃に強調し、潜在的な防御メカニズムに関する洞察を提供する。
関連論文リスト
- MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.1558732924808]
物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文 参考訳(メタデータ) (2024-12-11T01:41:19Z) - Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models [72.75669790569629]
LVLM(Large Vision-Language Models)における視覚言語アライメントにより、LLMは視覚入力を理解することができる。
既存の視覚言語アライメント手法では,LLMにおけるテキストの安全性機構を視覚に転送できないことがわかった。
LVLMのための新しいテキストガイド型視覚言語アライメント法(TGA)を提案する。
論文 参考訳(メタデータ) (2024-10-16T15:20:08Z) - Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models [32.23201683108716]
本稿では,攻撃に画像パッチを専ら使用し,オリジナルテキストの完全性を維持する新しい戦略を提案する。
本手法は,拡散モデルからの事前知識を活用し,摂動の真性や自然性を高める。
画像・テキスト・シナリオのホワイトボックス・セッティングで実施した総合実験により,提案手法は既存の手法を著しく上回り,100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-07T10:06:01Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。