論文の概要: Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots
- arxiv url: http://arxiv.org/abs/2504.03735v1
- Date: Tue, 01 Apr 2025 03:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 09:05:39.161532
- Title: Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots
- Title(参考訳): 役割の相違, 画像の相違:マルチモーダルアライメントブラインドスポットを出力する構造的入力摂動
- Authors: Erfan Shayegani, G M Shahariar, Sara Abdali, Lei Yu, Nael Abu-Ghazaleh, Yue Dong,
- Abstract要約: 本稿では,ユーザとアシスタント間の役割混乱を利用した対人攻撃のクラスであるロール・モダリティ・アタック(RMA)を紹介する。
RMAはクエリ自体を変更することなく入力構造を操作する。
本稿では,入力の急激な摂動に対してモデルを頑健にするための逆トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 6.302734977940601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Language Models (MMLMs) typically undergo post-training alignment to prevent harmful content generation. However, these alignment stages focus primarily on the assistant role, leaving the user role unaligned, and stick to a fixed input prompt structure of special tokens, leaving the model vulnerable when inputs deviate from these expectations. We introduce Role-Modality Attacks (RMA), a novel class of adversarial attacks that exploit role confusion between the user and assistant and alter the position of the image token to elicit harmful outputs. Unlike existing attacks that modify query content, RMAs manipulate the input structure without altering the query itself. We systematically evaluate these attacks across multiple Vision Language Models (VLMs) on eight distinct settings, showing that they can be composed to create stronger adversarial prompts, as also evidenced by their increased projection in the negative refusal direction in the residual stream, a property observed in prior successful attacks. Finally, for mitigation, we propose an adversarial training approach that makes the model robust against input prompt perturbations. By training the model on a range of harmful and benign prompts all perturbed with different RMA settings, it loses its sensitivity to Role Confusion and Modality Manipulation attacks and is trained to only pay attention to the content of the query in the input prompt structure, effectively reducing Attack Success Rate (ASR) while preserving the model's general utility.
- Abstract(参考訳): マルチモーダル言語モデル(MMLM)は通常、有害なコンテンツ生成を防ぐためにトレーニング後のアライメントを行う。
しかしながら、これらのアライメントステージは、主にアシスタントロールに焦点を合わせ、ユーザロールは整合性を持たず、特別なトークンの固定された入力プロンプト構造に固執し、入力がこれらの期待から外れたときにモデルを脆弱にしておく。
本稿では,ユーザとアシスタント間の役割混乱を生かし,画像トークンの位置を変更して有害な出力を誘導する,新たな対人攻撃のクラスであるロール・モダリティ・アタック(RMA)を紹介する。
クエリ内容を変更する既存の攻撃とは異なり、RMAはクエリ自体を変更することなく入力構造を操作する。
本研究は,8つの異なる環境下で,複数の視覚言語モデル(VLM)にまたがる攻撃を系統的に評価し,より強い敵のプロンプトを生成できることを示す。
最後に, モデルがインプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプット・インプットに対するロバストなトレーニング手法を提案する。
モデルが有害で良心的な範囲でトレーニングすることにより、異なるRMA設定で摂動を誘導し、ロール・コンフュージョンやモダリティ・マニピュレーション攻撃に対する感受性を失い、入力プロンプト構造におけるクエリの内容にのみ注意を払うように訓練され、モデルの汎用性を保ちながら、攻撃成功率(ASR)を効果的に低減する。
関連論文リスト
- Separator Injection Attack: Uncovering Dialogue Biases in Large Language Models Caused by Role Separators [18.00739443633401]
役割セパレータは、会話で異なる参加者を区別するために使用される。
ロールの誤用はインジェクション攻撃を引き起こす可能性があるため、モデルの振る舞いをユーザの意図と簡単に間違える可能性がある。
我々は,ロールセパレータに基づく新しい正弦波攻撃であるセパレータインジェクションアタック(SIA)を開発した。
論文 参考訳(メタデータ) (2025-04-08T05:20:56Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Prompt-driven Transferable Adversarial Attack on Person Re-Identification with Attribute-aware Textual Inversion [17.18411620606476]
本稿では,歩行者画像の微細な意味的特徴を損なうために,Attribute-aware Prompt Attack (AP-Attack)を導入する。
AP-Attackは最先端の転送可能性を実現し、従来の手法よりも22.9%上回った。
論文 参考訳(メタデータ) (2025-02-27T02:32:58Z) - Extend Adversarial Policy Against Neural Machine Translation via Unknown Token [66.40609413186122]
本稿では,トークン置換に基づく既存主流対立政策の文字摂動を導入した「デックスCharポリシー」を提案する。
また、RLのフィードバックを提供する自己教師型マッチングを改善し、敵の訓練に必要な意味的制約に対処する。
論文 参考訳(メタデータ) (2025-01-21T14:43:04Z) - Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based Customization [19.635385099376066]
悪意のあるユーザは、DreamBoothのような拡散ベースのカスタマイズメソッドを誤用して、偽画像を作った。
本稿では,拡散モデル出力を阻害する新しい逆攻撃法であるDisDiffを提案する。
論文 参考訳(メタデータ) (2024-05-31T02:45:31Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - ExploreADV: Towards exploratory attack for Neural Networks [0.33302293148249124]
ExploreADVは、地域的および非受容的な攻撃をモデル化できる汎用的で柔軟な敵攻撃システムである。
提案システムは,入力のサブリージョンに着目し,知覚不能な摂動を探索し,攻撃に対する画素/領域の脆弱性を理解するための柔軟性をユーザに提供する。
論文 参考訳(メタデータ) (2023-01-01T07:17:03Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。