論文の概要: Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions
- arxiv url: http://arxiv.org/abs/2603.03637v1
- Date: Wed, 04 Mar 2026 01:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.146836
- Title: Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions
- Title(参考訳): 画像ベースプロンプトインジェクション:視覚埋め込み型対向命令によるマルチモーダルLDMのハイジャック
- Authors: Neha Nagaraja, Lan Zhang, Zhilong Wang, Bo Zhang, Pawan Patil,
- Abstract要約: 画像ベースプロンプトインジェクション (IPI) は, 逆方向の命令を自然な画像に埋め込んでモデル動作をオーバーライドするブラックボックス攻撃である。
エンドツーエンドのIPIパイプラインには、セグメンテーションベースの領域選択、適応フォントスケーリング、バックグラウンド認識レンダリングが組み込まれています。
- 参考スコア(独自算出の注目度): 7.575333495550402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) integrate vision and text to power applications, but this integration introduces new vulnerabilities. We study Image-based Prompt Injection (IPI), a black-box attack in which adversarial instructions are embedded into natural images to override model behavior. Our end-to-end IPI pipeline incorporates segmentation-based region selection, adaptive font scaling, and background-aware rendering to conceal prompts from human perception while preserving model interpretability. Using the COCO dataset and GPT-4-turbo, we evaluate 12 adversarial prompt strategies and multiple embedding configurations. The results show that IPI can reliably manipulate the output of the model, with the most effective configuration achieving up to 64\% attack success under stealth constraints. These findings highlight IPI as a practical threat in black-box settings and underscore the need for defenses against multimodal prompt injection.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、視覚とテキストを統合してアプリケーションを動かすが、この統合は新たな脆弱性をもたらす。
画像ベースプロンプトインジェクション (IPI) は, 逆方向の命令を自然な画像に埋め込まれ, モデル動作をオーバーライドするブラックボックスアタックである。
我々のエンドツーエンドIPIパイプラインは、セグメント化に基づく領域選択、適応フォントスケーリング、背景認識レンダリングを組み込んで、モデル解釈性を維持しながら、人間の知覚からプロンプトを隠蔽する。
COCOデータセットとGPT-4-turboを用いて、12の対向的プロンプト戦略と複数の埋め込み構成を評価する。
その結果、IPIはモデルの出力を確実に操作でき、最も効果的な構成はステルス制約下で64\%の攻撃成功を達成できることがわかった。
これらの結果から,IPIはブラックボックス設定における実用的な脅威であり,マルチモーダル・プロンプト・インジェクションに対する防御の必要性を浮き彫りにしている。
関連論文リスト
- Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。
MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。
我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-05T06:01:26Z) - Test-Time Computing for Referring Multimodal Large Language Models [143.49848714354698]
そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。
学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
論文 参考訳(メタデータ) (2026-02-23T04:42:10Z) - LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models [6.127898072805579]
本稿では,マルチイメージMLLMを対象とするユニバーサル適応摂動(UAP)を学習するためのブラックボックスであるLAMPを紹介する。
LAMPは注意に基づく制約を適用し、画像間で効果的に情報を集約するのを防ぐ。
LAMPはまた、摂動トークンがクリーントークンに影響を与えるように強制し、全ての入力を変更することなく敵の効果を広げる、新しいクロスイメージの伝染性制約も導入している。
論文 参考訳(メタデータ) (2026-01-29T03:36:17Z) - AgentTypo: Adaptive Typographic Prompt Injection Attacks against Black-box Multimodal Agents [22.88469633141419]
我々は、最適化されたテキストをWebページイメージに埋め込むことで、適応型タイポグラフィーインジェクションを組み込むフレームワークであるAgentTypoを紹介する。
我々のATPIアルゴリズムは,スチールスロスによる人体検出性を最小化しながらキャプタを置換することで,迅速な再構築を最大化する。
我々はまた,複数LLMシステムであるAgentTypo-proを開発し,評価フィードバックを用いてインジェクションプロンプトを反復的に洗練し,連続学習における過去の事例を検索する。
論文 参考訳(メタデータ) (2025-10-05T15:46:56Z) - MADPromptS: Unlocking Zero-Shot Morphing Attack Detection with Multiple Prompt Aggregation [8.045296450065019]
顔モフティング攻撃検出(MAD)は、顔認識のセキュリティにおいて重要な課題である。
この研究は、追加のトレーニングや微調整なしでCLIPを活用することによって、MADに対する純粋なゼロショットアプローチを探求する。
多様なプロンプトの埋め込みを集約することにより、モデルの内部表現とMADタスクとの整合性が向上する。
論文 参考訳(メタデータ) (2025-08-12T13:47:27Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。