論文の概要: Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity
- arxiv url: http://arxiv.org/abs/2508.09218v1
- Date: Mon, 11 Aug 2025 18:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.629844
- Title: Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity
- Title(参考訳): オントピネスとOOD強度のバランスによる効果的なMLLM脱獄に向けて
- Authors: Zuoou Li, Weitong Zhang, Jingyuan Wang, Shuyuan Zhang, Wenjia Bai, Bernhard Kainz, Mengyun Qiao,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は視覚言語推論タスクで広く使われている。
MLLMは、安全機構が有害な出力の発生を防ぐのに失敗するため、敵のプロンプトに対して脆弱である。
本研究では,入力オントピー性,出力アウトオブディストリビューション(OOD)強度,出力有害性,出力拒否率を考慮した4軸評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.809329513705915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are widely used in vision-language reasoning tasks. However, their vulnerability to adversarial prompts remains a serious concern, as safety mechanisms often fail to prevent the generation of harmful outputs. Although recent jailbreak strategies report high success rates, many responses classified as "successful" are actually benign, vague, or unrelated to the intended malicious goal. This mismatch suggests that current evaluation standards may overestimate the effectiveness of such attacks. To address this issue, we introduce a four-axis evaluation framework that considers input on-topicness, input out-of-distribution (OOD) intensity, output harmfulness, and output refusal rate. This framework identifies truly effective jailbreaks. In a substantial empirical study, we reveal a structural trade-off: highly on-topic prompts are frequently blocked by safety filters, whereas those that are too OOD often evade detection but fail to produce harmful content. However, prompts that balance relevance and novelty are more likely to evade filters and trigger dangerous output. Building on this insight, we develop a recursive rewriting strategy called Balanced Structural Decomposition (BSD). The approach restructures malicious prompts into semantically aligned sub-tasks, while introducing subtle OOD signals and visual cues that make the inputs harder to detect. BSD was tested across 13 commercial and open-source MLLMs, where it consistently led to higher attack success rates, more harmful outputs, and fewer refusals. Compared to previous methods, it improves success rates by $67\%$ and harmfulness by $21\%$, revealing a previously underappreciated weakness in current multimodal safety systems.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は視覚言語推論タスクで広く使われている。
しかしながら、有害なアウトプットの発生を防ぐ安全機構がしばしば失敗するため、敵のプロンプトに対する脆弱性は深刻な懸念である。
最近のジェイルブレイク戦略は高い成功率を報告しているが、"successful"に分類された多くの反応は、実際には良心的、曖昧で、意図された悪意のある目標とは無関係である。
このミスマッチは、現在の評価基準がそのような攻撃の有効性を過大評価している可能性を示唆している。
この問題に対処するために,入力オントピー性,出力アウトオブディストリビューション(OOD)強度,出力有害性,出力拒否率を考慮した4軸評価フレームワークを提案する。
このフレームワークは、真に効果的なジェイルブレイクを特定します。
高度にオントピー的なプロンプトは安全フィルタによって頻繁にブロックされるが、OODが多すぎるものは検出を回避できるが有害なコンテンツを生成できない。
しかし、バランス関係と新規性はフィルターを回避し、危険な出力を発生させる可能性が高くなる。
この知見に基づいて、我々は、平衡構造分解(BSD)と呼ばれる再帰的書き換え戦略を開発する。
このアプローチは、悪意のあるプロンプトをセマンティックにアライメントされたサブタスクに再構成し、微妙なOOD信号や視覚的手がかりを導入し、入力を検出しにくくする。
BSDは13の商用およびオープンソースのMLLMでテストされた。
従来の方法と比較すると、成功率を67 %、有害度を21 %改善し、従来のマルチモーダル安全システムでは未承認の弱点が浮かび上がっている。
関連論文リスト
- Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。