論文の概要: TrojVLM: Backdoor Attack Against Vision Language Models
- arxiv url: http://arxiv.org/abs/2409.19232v1
- Date: Sat, 28 Sep 2024 04:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 00:28:26.054580
- Title: TrojVLM: Backdoor Attack Against Vision Language Models
- Title(参考訳): TrojVLM:視覚言語モデルに対するバックドア攻撃
- Authors: Weimin Lyu, Lu Pang, Tengfei Ma, Haibin Ling, Chao Chen,
- Abstract要約: 本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
- 参考スコア(独自算出の注目度): 50.87239635292717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Vision Language Models (VLMs) is a significant advancement in integrating computer vision with Large Language Models (LLMs) to produce detailed text descriptions based on visual inputs, yet it introduces new security vulnerabilities. Unlike prior work that centered on single modalities or classification tasks, this study introduces TrojVLM, the first exploration of backdoor attacks aimed at VLMs engaged in complex image-to-text generation. Specifically, TrojVLM inserts predetermined target text into output text when encountering poisoned images. Moreover, a novel semantic preserving loss is proposed to ensure the semantic integrity of the original image content. Our evaluation on image captioning and visual question answering (VQA) tasks confirms the effectiveness of TrojVLM in maintaining original semantic content while triggering specific target text outputs. This study not only uncovers a critical security risk in VLMs and image-to-text generation but also sets a foundation for future research on securing multimodal models against such sophisticated threats.
- Abstract(参考訳): VLM(Vision Language Models)の出現は、コンピュータビジョンとLLM(Large Language Models)の統合において、視覚的な入力に基づく詳細なテキスト記述を生成する重要な進歩である。
単一モーダル性や分類タスクを中心とした以前の研究とは異なり、この研究は複雑な画像・テキスト生成に携わるVLMを対象としたバックドアアタックの最初の調査であるTrojVLMを紹介している。
具体的には、TrojVLMは、有毒な画像に遭遇する際に、所定のターゲットテキストを出力テキストに挿入する。
さらに、オリジナル画像コンテンツのセマンティックな整合性を確保するために、新しいセマンティック保存損失を提案する。
画像キャプションと視覚的質問応答(VQA)タスクの評価は、特定のテキスト出力をトリガーしながら、元のセマンティックコンテンツを維持する上でのTrojVLMの有効性を確認する。
この研究は、VLMや画像・テキスト生成における重大なセキュリティリスクを明らかにするだけでなく、このような高度な脅威に対してマルチモーダルモデルを確保するための基盤となる。
関連論文リスト
- Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models [72.75669790569629]
LVLM(Large Vision-Language Models)における視覚言語アライメントにより、LLMは視覚入力を理解することができる。
既存の視覚言語アライメント手法では,LLMにおけるテキストの安全性機構を視覚に転送できないことがわかった。
LVLMのための新しいテキストガイド型視覚言語アライメント法(TGA)を提案する。
論文 参考訳(メタデータ) (2024-10-16T15:20:08Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - Backdooring Vision-Language Models with Out-Of-Distribution Data [44.40928756056506]
視覚言語モデル(VLM)は視覚入力から詳細なテキスト記述を生成する。
重要性は増しているが、特にバックドア攻撃に対するVLMの安全性は検討中である。
VLOOD(Backdooring Vision-Language Models with Out-of-Distribution Data)は、2つの重要なコントリビューションを持つ新しいアプローチである。
論文 参考訳(メタデータ) (2024-10-02T06:21:00Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model [23.764618459753326]
タイポグラフィー攻撃はLVLMのセキュリティ上の脅威になると予想されている。
現在よく知られた商用およびオープンソースのLVLMに対するタイポグラフィー攻撃を検証する。
この脆弱性をよりよく評価するために,これまでで最も包括的で大規模なTypographicデータセットを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:31:56Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。