論文の概要: Why does weak-OOD help? A Further Step Towards Understanding Jailbreaking VLMs
- arxiv url: http://arxiv.org/abs/2511.08367v1
- Date: Wed, 12 Nov 2025 01:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.782093
- Title: Why does weak-OOD help? A Further Step Towards Understanding Jailbreaking VLMs
- Title(参考訳): なぜ弱いOODが役立つのか? 脱獄VLMの理解に向けて
- Authors: Yuxuan Zhou, Yuzhao Peng, Yang Bai, Kuofeng Gao, Yihao Zhang, Yechao Zhang, Xun Chen, Tao Yu, Tao Dai, Shu-Tao Xia,
- Abstract要約: 大型ビジョンランゲージモデル(VLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,OODをベースとしたVLMジェイルブレイク手法の理解を深める。
- 参考スコア(独自算出の注目度): 62.03547713936256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs) are susceptible to jailbreak attacks: researchers have developed a variety of attack strategies that can successfully bypass the safety mechanisms of VLMs. Among these approaches, jailbreak methods based on the Out-of-Distribution (OOD) strategy have garnered widespread attention due to their simplicity and effectiveness. This paper further advances the in-depth understanding of OOD-based VLM jailbreak methods. Experimental results demonstrate that jailbreak samples generated via mild OOD strategies exhibit superior performance in circumventing the safety constraints of VLMs--a phenomenon we define as ''weak-OOD''. To unravel the underlying causes of this phenomenon, this study takes SI-Attack, a typical OOD-based jailbreak method, as the research object. We attribute this phenomenon to a trade-off between two dominant factors: input intent perception and model refusal triggering. The inconsistency in how these two factors respond to OOD manipulations gives rise to this phenomenon. Furthermore, we provide a theoretical argument for the inevitability of such inconsistency from the perspective of discrepancies between model pre-training and alignment processes. Building on the above insights, we draw inspiration from optical character recognition (OCR) capability enhancement--a core task in the pre-training phase of mainstream VLMs. Leveraging this capability, we design a simple yet highly effective VLM jailbreak method, whose performance outperforms that of SOTA baselines.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(VLM)は、ジェイルブレイク攻撃の影響を受けやすい。研究者は、VLMの安全性メカニズムを回避できる様々な攻撃戦略を開発した。
これらのアプローチの中で,アウト・オブ・ディストリビューション(OOD)戦略に基づくジェイルブレイク手法は,その単純さと有効性から広く注目を集めている。
本稿では,OODをベースとしたVLMジェイルブレイク手法の深い理解をさらに進める。
実験の結果, 軽度のOOD戦略により生成した脱獄サンプルは, VLMの安全性の制約を回避する上で, 優れた性能を示した。
この現象の根本原因を明らかにするために、本研究では、典型的なOODベースのジェイルブレイク法であるSI-Attackを研究対象とする。
我々はこの現象を、入力意図認識とモデル拒絶トリガという2つの主要な要因のトレードオフとみなす。
これらの2つの要因がOOD操作にどのように反応するかの矛盾は、この現象を引き起こす。
さらに、モデル事前学習とアライメントプロセスの相違の観点から、このような不整合の不可避性を理論的に論じる。
以上の知見に基づいて、本研究は、主流VLMの事前学習段階におけるコアタスクである光学文字認識(OCR)機能強化からインスピレーションを得る。
この機能を活用することで,SOTAベースラインよりも優れた性能を持つ,単純かつ高効率なVLMジェイルブレイク法を設計する。
関連論文リスト
- A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness [32.47621091096285]
安全性アライメントは、LLM(Large Language Models)が有害なクエリに応答することを防ぐことを目的としている。
本稿では,命令的有害な要求を学習スタイルの質問に変換する新しいジェイルブレイク手法であるHILLを紹介する。
幅広いモデルにわたるAdvBenchデータセットの実験は、HILLの強い有効性、一般化可能性、有害性を示している。
論文 参考訳(メタデータ) (2025-09-17T04:21:20Z) - Unraveling LLM Jailbreaks Through Safety Knowledge Neurons [26.157477756143166]
本稿では,安全関連知識ニューロンの役割に焦点をあてた新しいニューロンレベルの解釈可能性手法を提案する。
安全性関連ニューロンの活性化の調節は,平均的ASRを97%以上で効果的に制御できることが示唆された。
我々は,モデルロバスト性を改善するために,安全クリティカルニューロンを強化する微調整戦略であるSafeTuningを提案する。
論文 参考訳(メタデータ) (2025-09-01T17:17:06Z) - Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity [24.809329513705915]
マルチモーダル大言語モデル(MLLM)は視覚言語推論タスクで広く使われている。
MLLMは、安全機構が有害な出力の発生を防ぐのに失敗するため、敵のプロンプトに対して脆弱である。
本研究では,入力オントピー性,出力アウトオブディストリビューション(OOD)強度,出力有害性,出力拒否率を考慮した4軸評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T18:57:55Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。