論文の概要: FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts
- arxiv url: http://arxiv.org/abs/2502.21059v2
- Date: Tue, 10 Jun 2025 18:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.645632
- Title: FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts
- Title(参考訳): FC-Attack:自動生成フローチャートによるマルチモーダル大言語モデルのジェイルブレーク
- Authors: Ziyi Zhang, Zhen Sun, Zongmin Zhang, Jihui Guo, Xinlei He,
- Abstract要約: MLLM(Multimodal Large Language Models)は、いくつかの実用アプリケーションにおいて強力で広く採用されている。
近年の研究では、有害なコンテンツを生成するためにモデルを誘導できるマルチモーダル・ジェイルブレイク攻撃に対する脆弱性が明らかにされている。
本稿では,自動生成フローチャートFC-Attackに基づくジェイルブレイク攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 20.323340637767327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have become powerful and widely adopted in some practical applications. However, recent research has revealed their vulnerability to multimodal jailbreak attacks, whereby the model can be induced to generate harmful content, leading to safety risks. Although most MLLMs have undergone safety alignment, recent research shows that the visual modality is still vulnerable to jailbreak attacks. In our work, we discover that by using flowcharts with partially harmful information, MLLMs can be induced to provide additional harmful details. Based on this, we propose a jailbreak attack method based on auto-generated flowcharts, FC-Attack. Specifically, FC-Attack first fine-tunes a pre-trained LLM to create a step-description generator based on benign datasets. The generator is then used to produce step descriptions corresponding to a harmful query, which are transformed into flowcharts in 3 different shapes (vertical, horizontal, and S-shaped) as visual prompts. These flowcharts are then combined with a benign textual prompt to execute the jailbreak attack on MLLMs. Our evaluations on Advbench show that FC-Attack attains an attack success rate of up to 96% via images and up to 78% via videos across multiple MLLMs. Additionally, we investigate factors affecting the attack performance, including the number of steps and the font styles in the flowcharts. We also find that FC-Attack can improve the jailbreak performance from 4% to 28% in Claude-3.5 by changing the font style. To mitigate the attack, we explore several defenses and find that AdaShield can largely reduce the jailbreak performance but with the cost of utility drop.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、いくつかの実用アプリケーションにおいて強力で広く採用されている。
しかし、最近の研究により、マルチモーダル・ジェイルブレイク攻撃に対する脆弱性が明らかにされており、モデルが有害なコンテンツを生成するために誘導され、安全性のリスクが生じる可能性がある。
ほとんどのMLLMは安全アライメントを受けていますが、最近の研究では、視覚的モダリティがまだジェイルブレイク攻撃に弱いことが示されています。
本研究では,一部有害な情報を持つフローチャートを使用することで,MLLMを誘導し,さらに有害な情報を提供する。
そこで本研究では,自動生成フローチャートFC-Attackに基づくジェイルブレイク攻撃手法を提案する。
具体的には、FC-Attackはまず事前訓練されたLLMを微調整し、良質なデータセットに基づいたステップ記述ジェネレータを生成する。
次にジェネレータを使用して、有害なクエリに対応するステップ記述を生成し、視覚的なプロンプトとして3つの異なる形状(垂直、水平、S字形)のフローチャートに変換する。
これらのフローチャートは、MLLMに対するジェイルブレイク攻撃を実行するための良心的なテキストプロンプトと結合される。
Advbenchの評価では、FC-Attackは画像を介して最大96%、複数のMLLMで最大78%の攻撃成功率を達成した。
さらに,フローチャートのステップ数やフォントスタイルなど,攻撃性能に影響する要因についても検討する。
また,FC-Attackはフォントスタイルを変えることで,Claude-3.5のジェイルブレイク性能を4%から28%改善できることがわかった。
攻撃を緩和するため、いくつかの防御策を探索し、AdaShieldが脱獄性能を大幅に低下させるが、実用コストは低下する。
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency [26.320250214125483]
MLLM(Multimodal Large Language Models)は目覚ましい性能を発揮し、商用アプリケーションで実用化されている。
ジェイルブレイク攻撃は安全メカニズムを回避し、MLLMの潜在的なリスクを発見することを目的としている。
本稿では,Shuffleの不整合を克服し,シャッフルランダム性を克服するため,SI-Attackというテキストイメージのジェイルブレイク攻撃を提案する。
論文 参考訳(メタデータ) (2025-01-09T02:47:01Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Jailbreak Large Vision-Language Models Through Multi-Modal Linkage [14.025750623315561]
我々は、MML攻撃という新しいジェイルブレイク攻撃フレームワークを提案する。暗号からインスピレーションを得たMMLは、テキストと画像のモダリティをまたいだ暗号化復号プロセスを利用して、悪意のある情報の過剰露出を軽減する。
MMLjailbreaks GPT-4o with attack success rate 97.80% on SafeBench, 98.81% on MM-SafeBench, 99.07% on HADES-Dataset。
論文 参考訳(メタデータ) (2024-11-30T13:21:15Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。