論文の概要: Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Images via Visual Prompt Injection
- arxiv url: http://arxiv.org/abs/2604.09024v1
- Date: Fri, 10 Apr 2026 06:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.72641
- Title: Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Images via Visual Prompt Injection
- Title(参考訳): 画像の独立性:ビジュアル・プロンプト・インジェクションによる画像解析による多モード大言語モデルの構築
- Authors: Zedian Shao, Hongbin Liu, Yuepeng Hu, Neil Zhenqiang Gong,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は,インターネット規模の画像データを解析するための強力なツールとして登場した。
特に、オープンウェイトMLLMは、大規模な個人画像から機密情報を抽出するために誤用されることがある。
本稿では,画像共有前を積極的に保護するユーザ側手法であるImageProtectorを提案する。
- 参考スコア(独自算出の注目度): 37.48710514852417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal large language models (MLLMs) have emerged as powerful tools for analyzing Internet-scale image data, offering significant benefits but also raising critical safety and societal concerns. In particular, open-weight MLLMs may be misused to extract sensitive information from personal images at scale, such as identities, locations, or other private details. In this work, we propose ImageProtector, a user-side method that proactively protects images before sharing by embedding a carefully crafted, nearly imperceptible perturbation that acts as a visual prompt injection attack on MLLMs. As a result, when an adversary analyzes a protected image with an MLLM, the MLLM is consistently induced to generate a refusal response such as "I'm sorry, I can't help with that request." We empirically demonstrate the effectiveness of ImageProtector across six MLLMs and four datasets. Additionally, we evaluate three potential countermeasures, Gaussian noise, DiffPure, and adversarial training, and show that while they partially mitigate the impact of ImageProtector, they simultaneously degrade model accuracy and/or efficiency. Our study focuses on the practically important setting of open-weight MLLMs and large-scale automated image analysis, and highlights both the promise and the limitations of perturbation-based privacy protection.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、インターネット規模の画像データを解析するための強力なツールとして登場し、大きなメリットを提供するとともに、重要な安全性と社会的懸念を提起している。
特に、オープンウェイトMLLMは、アイデンティティ、場所、その他のプライベートな詳細など、大規模な個人画像から機密情報を抽出するために誤用されることがある。
本研究では,MLLMに対する視覚的プロンプトインジェクション攻撃として機能する,慎重に製作されたほとんど知覚不可能な摂動を埋め込むことにより,画像の共有を積極的に保護するユーザ側手法であるImageProtectorを提案する。
その結果、敵がMLLMで保護された画像を解析すると、MLLMは一貫して誘導され、「申し訳ありません、その要求を手伝うことはできません」などの拒否応答が生成される。
6つのMLLMと4つのデータセットにまたがるImageProtectorの有効性を実証的に示す。
さらに, ガウスノイズ, DiffPure, 対人訓練の3つの潜在的対策の評価を行い, また, ImageProtectorの影響を部分的に緩和する一方, モデル精度と効率を同時に低下させることを示した。
本研究は,オープンウェイトMLLMと大規模自動画像解析の実践的重要な設定に焦点を当て,摂動型プライバシー保護の約束と限界を強調した。
関連論文リスト
- When Privacy Meets Recovery: The Overlooked Half of Surrogate-Driven Privacy Preservation for MLLM Editing [61.80513991207956]
この研究は、さまざまなMLLMシナリオでサロゲート駆動の保護されたデータを復元する方法の課題に焦点を当てている。
私たちはまず、SPPE(Surrogate Privacy Protected Editable)データセットの提供によって、この研究ギャップを埋めます。
MLLM生成編集の忠実さを保ちながら、プライベートコンテンツを確実に再構築する統一的な手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T04:59:03Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。
画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。
MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。