論文の概要: ARGUS: Defending Against Multimodal Indirect Prompt Injection via Steering Instruction-Following Behavior
- arxiv url: http://arxiv.org/abs/2512.05745v1
- Date: Fri, 05 Dec 2025 14:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.056777
- Title: ARGUS: Defending Against Multimodal Indirect Prompt Injection via Steering Instruction-Following Behavior
- Title(参考訳): ARGUS:ステアリング命令追従行動によるマルチモーダル間接プロンプト注入に対する防御
- Authors: Weikai Lu, Ziqian Zeng, Kehua Zhang, Haoran Li, Huiping Zhuang, Ruidong Wang, Cen Chen, Hao Peng,
- Abstract要約: MLLM(Multimodal Large Language Models)は、マルチモーダルIPI攻撃に対して脆弱である。
既存の防御は、主にテキストのみのLLM用に設計されており、容易にバイパスされ、モダリティに依存し、あるいは一般化が不十分である。
本稿では,ユーティリティ劣化方向から分離した安全部分空間内の最適な防御方向を探索するARGUSを提案する。
- 参考スコア(独自算出の注目度): 30.37639002407416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are increasingly vulnerable to multimodal Indirect Prompt Injection (IPI) attacks, which embed malicious instructions in images, videos, or audio to hijack model behavior. Existing defenses, designed primarily for text-only LLMs, are unsuitable for countering these multimodal threats, as they are easily bypassed, modality-dependent, or generalize poorly. Inspired by activation steering researches, we hypothesize that a robust, general defense independent of modality can be achieved by steering the model's behavior in the representation space. Through extensive experiments, we discover that the instruction-following behavior of MLLMs is encoded in a subspace. Steering along directions within this subspace can enforce adherence to user instructions, forming the basis of a defense. However, we also found that a naive defense direction could be coupled with a utility-degrading direction, and excessive intervention strength harms model performance. To address this, we propose ARGUS, which searches for an optimal defense direction within the safety subspace that decouples from the utility degradation direction, further combining adaptive strength steering to achieve a better safety-utility trade-off. ARGUS also introduces lightweight injection detection stage to activate the defense on-demand, and a post-filtering stage to verify defense success. Experimental results show that ARGUS can achieve robust defense against multimodal IPI while maximally preserving the MLLM's utility.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像、ビデオ、オーディオに悪意ある命令を埋め込んだマルチモーダル間接プロンプトインジェクション(IPI)攻撃に対して、ますます脆弱になっている。
既存の防衛は、主にテキストのみのLLM向けに設計されており、容易にバイパスされ、モダリティに依存し、あるいは一般化が不十分であるため、これらのマルチモーダル脅威に対抗するには適していない。
アクティベーションステアリング研究から着想を得た我々は、表現空間におけるモデルの振舞いを操ることで、モダリティに依存しない堅牢で一般的な防御が達成できるという仮説を立てた。
大規模な実験により,MLLMの命令追従動作が部分空間に符号化されることが判明した。
このサブスペース内の方向に沿ってステアリングすることで、ユーザ命令の順守を強制し、防御の基盤を形成することができる。
しかし,有効性劣化方向と自然防御方向を結合させることで,過度な介入強度がモデル性能を損なうことも見出した。
そこで本研究では, 実用性劣化方向から分離した安全部分空間内の最適な防御方向を探索し, さらに適応強度ステアリングを組み合わせることで, より優れた安全・実用トレードオフを実現するARGUSを提案する。
ARGUSはまた、オンデマンドで防御を活性化するための軽量な注入検出ステージと、防御の成功を検証するためのポストフィルタステージも導入している。
実験の結果,ARGUSはMLLMの有用性を最大限に保ちつつ,マルチモーダルIPIに対する堅牢な防御を達成できることが示唆された。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks [16.508109544083496]
視覚言語モデル(VLM)は、敵の攻撃にさらされると意図しない有害なコンテンツを生成できる。
既存の防御(例えば、入力前処理、敵の訓練、応答評価に基づく手法)は、実世界の展開には実用的ではないことが多い。
本稿では,VLM攻撃に対する対向的特徴方向からモデルを誘導し,効果的かつ効果的な防御法であるASTRAを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:17:17Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。