論文の概要: Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
- arxiv url: http://arxiv.org/abs/2601.15698v1
- Date: Thu, 22 Jan 2026 06:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.518985
- Title: Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
- Title(参考訳): 視覚的安全性を超えて:セマンティック非依存入力による有害画像生成のためのマルチモーダル大言語モデルのジェイルブレーク
- Authors: Mingyu Yu, Lana Liu, Zhehao Zhao, Wei Wang, Sujuan Qin,
- Abstract要約: Beyond Visual Safety (BVS)は、MLLMの視覚的安全性境界を調査するために設計された、画像とテキストのペアのジェイルブレイクフレームワークである。
BVSは、視覚的スプライシングと帰納的再構成を活用して悪意ある意図を生の入力から切り離す"再構築世代"戦略を採用している。
本研究は,現在のMLLMの視覚安全アライメントにおける重大な脆弱性を明らかにするものである。
- 参考スコア(独自算出の注目度): 2.903006172774433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Multimodal Large Language Models (MLLMs) has introduced complex security challenges, particularly at the intersection of textual and visual safety. While existing schemes have explored the security vulnerabilities of MLLMs, the investigation into their visual safety boundaries remains insufficient. In this paper, we propose Beyond Visual Safety (BVS), a novel image-text pair jailbreaking framework specifically designed to probe the visual safety boundaries of MLLMs. BVS employs a "reconstruction-then-generation" strategy, leveraging neutralized visual splicing and inductive recomposition to decouple malicious intent from raw inputs, thereby leading MLLMs to be induced into generating harmful images. Experimental results demonstrate that BVS achieves a remarkable jailbreak success rate of 98.21\% against GPT-5 (12 January 2026 release). Our findings expose critical vulnerabilities in the visual safety alignment of current MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩は、特にテキストと視覚の安全性の交差において、複雑なセキュリティ問題を引き起こしている。
既存のスキームではMLLMのセキュリティ脆弱性を調査しているが、視覚的安全性の境界に関する調査はまだ不十分である。
本稿では,MLLMの視覚的安全性境界を探索するための新しい画像テキストペアジェイルブレイクフレームワークであるBeyond Visual Safety (BVS)を提案する。
BVSは、中立化された視覚的スプライシングと誘導的再構成を活用して、悪意ある意図を生の入力から切り離し、MLLMを有害な画像に誘導する「再構成世代」戦略を採用している。
実験の結果、BVSはGPT-5(2026年1月12日リリース)に対して98.21\%という顕著なジェイルブレイク成功率を達成した。
本研究は,現在のMLLMの視覚安全アライメントにおける重大な脆弱性を明らかにするものである。
関連論文リスト
- Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack [40.68344330540352]
MLLM(Multimodal Large Language Models)は、その強力なクロスモーダル理解と生成能力により、様々な分野で広く使われている。
以前のジェイルブレイク攻撃は、テキストモダルで安全性のリスクを推論しようとする試みだったが、視覚モダルでは同様の脅威がほとんど見過ごされている。
本稿では、MLLMを徐々に外部化し、完全に有害な意図を集約する視覚推論シークエンシャルアタック(VRSA)を提案する。
論文 参考訳(メタデータ) (2025-12-05T16:29:52Z) - Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling [11.939828002077482]
MLLM(Multimodal large language model)は、優れた能力を示すが、ジェイルブレイク攻撃の影響を受けない。
本研究では,最新のMLLMにおける安全アライメントを回避するために,連続的な漫画スタイルの視覚的物語を活用する新しい手法を提案する。
攻撃成功率は平均83.5%であり, 先行技術の46%を突破した。
論文 参考訳(メタデータ) (2025-10-16T18:30:26Z) - Behind the Mask: Benchmarking Camouflaged Jailbreaks in Large Language Models [0.0]
カモフラージュされたジェイルブレイクは 明らかに良心的な言語の中に 悪意のある意図を埋め込んで 既存の安全メカニズムを回避している
本稿では, 従来のキーワードベース検出手法の誤り特性と限界に着目し, カモフラージュされたジェイルブレイクプロンプトの構築と影響について検討する。
論文 参考訳(メタデータ) (2025-09-05T19:57:38Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。