論文の概要: Multi-Turn Adaptive Prompting Attack on Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.14399v1
- Date: Mon, 16 Feb 2026 02:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.043719
- Title: Multi-Turn Adaptive Prompting Attack on Large Vision-Language Models
- Title(参考訳): 大規模ビジョンランゲージモデルにおける多軸適応型プロンプティング攻撃
- Authors: In Chong Choi, Jiacheng Zhang, Feng Liu, Yiliao Song,
- Abstract要約: マルチターンジェイルブレイク攻撃は、テキストのみの大規模言語モデル(LLM)に対して、ターン毎に悪意のあるコンテンツを徐々に導入することで効果的である。
大規模視覚言語モデル (LVLM) に拡張すると, 視覚的入力を追加することで, 既存のマルチターンジェイルブレイクを容易に防御できることがわかった。
我々は、最も悪意のある応答を引き出すために、テキストビジョンアタックアクションを代替するマルチターン適応プロンプト攻撃であるMAPAを提案する。
- 参考スコア(独自算出の注目度): 17.22893761084286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn jailbreak attacks are effective against text-only large language models (LLMs) by gradually introducing malicious content across turns. When extended to large vision-language models (LVLMs), we find that naively adding visual inputs can cause existing multi-turn jailbreaks to be easily defended. For example, overly malicious visual input will easily trigger the defense mechanism of safety-aligned LVLMs, making the response more conservative. To address this, we propose MAPA: a multi-turn adaptive prompting attack that 1) at each turn, alternates text-vision attack actions to elicit the most malicious response; and 2) across turns, adjusts the attack trajectory through iterative back-and-forth refinement to gradually amplify response maliciousness. This two-level design enables MAPA to consistently outperform state-of-the-art methods, improving attack success rates by 11-35% on recent benchmarks against LLaVA-V1.6-Mistral-7B, Qwen2.5-VL-7B-Instruct, Llama-3.2-Vision-11B-Instruct and GPT-4o-mini.
- Abstract(参考訳): マルチターンジェイルブレイク攻撃は、テキストのみの大規模言語モデル(LLM)に対して、ターン毎に悪意のあるコンテンツを徐々に導入することで効果的である。
大規模視覚言語モデル (LVLM) に拡張すると, 視覚的入力を追加することで, 既存のマルチターンジェイルブレイクを容易に防御できることがわかった。
例えば、過度に悪意のある視覚入力は、安全に配慮したLVLMの防御機構を容易に引き起こし、応答をより保守的にする。
この問題に対処するために,マルチターン適応プロンプト攻撃であるMAPAを提案する。
1) 各ターンにおいて、最も悪意のある応答を引き出すために、テキストビジョンアタックアクションを交互に行う。
2) ターンにまたがって、繰り返しのバック・アンド・フォース・リファインメントを通じて攻撃経路を調整し、反応の悪意を徐々に増幅する。
この2段階の設計により、MAPAは最新のLLaVA-V1.6-Mistral-7B、Qwen2.5-VL-7B-Instruct、Llama-3.2-Vision-11B-Instruct、GPT-4o-miniに対する攻撃成功率を11~35%向上させることができる。
関連論文リスト
- MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models [52.37749859972453]
我々は,LVLMにおける複数のトリガターゲットマッピングを正確に行うための,最初のマルチターゲットバックドアアタックフレームワークであるMTAttackを提案する。
人気のあるベンチマークの実験では、マルチターゲット攻撃に対するMTAttackの成功率が高いことが示されている。
我々の攻撃は、データセット間での強力な一般化性と、バックドア防衛戦略に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-13T09:00:21Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [2.6799007584079884]
AutoAdvは、自動マルチターンジェイルブレイクのためのトレーニング不要のフレームワークである。
Llama-3.1-8Bの攻撃成功率は最大95%に達する。
論文 参考訳(メタデータ) (2025-11-04T08:56:28Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs [8.91993614197627]
本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文 参考訳(メタデータ) (2025-03-06T07:34:51Z) - Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors [12.550678408719756]
本研究では,実世界の人間のジェイルブレイク行動のシミュレーションを目的とした,学習に基づくマルチターン攻撃フレームワークを提案する。
実験の結果、サイレンはLLaMA-3-8Bを攻撃者として90%の攻撃成功率(ASR)を達成した。
我々は、サイレンが先進的な多ターンジェイルブレイク攻撃に対するより強力な防御の開発を促すことを願っている。
論文 参考訳(メタデータ) (2025-01-24T05:31:27Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。