論文の概要: Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
- arxiv url: http://arxiv.org/abs/2605.07250v1
- Date: Fri, 08 May 2026 05:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.811979
- Title: Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
- Title(参考訳): 読みづらい、脱獄し易い:MLLMの安全アライメントを克服する視覚的劣化
- Authors: Zhixue Song, Boyan Han, Yiwei Wang, Chi Zhang,
- Abstract要約: 近年のビジュアルコンテクスト圧縮の進歩により、MLLMはテキストを画像にレンダリングすることで、超長いコンテクストを効率的に処理できるようになっている。
このパラダイムに固有の致命的な脆弱性を特定します。
我々の研究は、視覚に基づく圧縮の重大なリスクを明らかにし、将来のMLLMの安全な設計のための重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 10.937124527565606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in visual context compression enable MLLMs to process ultra-long contexts efficiently by rendering text into images. However, we identify a critical vulnerability inherent to this paradigm: lowering image resolution inadvertently catalyzes jailbreaking. Our experiments reveal that the safety defenses of SOTA models deteriorate sharply as resolution degrades, surprisingly persisting even when text remains legible. We attribute this to ``Cognitive Overload'', hypothesizing that the effort required to decipher degraded inputs diverts attentional resources from safety auditing. This phenomenon is consistent across various visual perturbations, including noise and geometric distortion. To address this, we propose a simple ``Structured Cognitive Offloading'' strategy that mitigates these risks by enforcing a serialized pipeline to decouple visual transcription from safety assessment. Our work exposes a significant risk in vision-based compression and provides critical insights for the secure design of future MLLMs.
- Abstract(参考訳): 近年のビジュアルコンテクスト圧縮の進歩により、MLLMはテキストを画像にレンダリングすることで、超長いコンテクストを効率的に処理できるようになっている。
しかし、このパラダイムに固有の致命的な脆弱性は、画像解像度を意図的に低下させることでジェイルブレイクを引き起こす。
実験の結果,SOTAモデルの安全性は分解能が低下するにつれて急激に低下し,テキストの信頼性が保たれても驚くほど持続することがわかった。
我々はこれを「認知的過負荷」とみなし、劣化した入力を解読するために必要な努力は、安全監査から注意資源を逸脱させるという仮説を立てた。
この現象は、ノイズや幾何学的歪みを含む様々な視覚的摂動と一致している。
そこで本稿では,安全評価から視覚的書き起こしを分離するシリアライズパイプラインを導入することで,これらのリスクを軽減する,簡単な `Structured Cognitive Offloading' 戦略を提案する。
我々の研究は、視覚に基づく圧縮の重大なリスクを明らかにし、将来のMLLMの安全な設計のための重要な洞察を提供する。
関連論文リスト
- Jailbreaks on Vision Language Model via Multimodal Reasoning [10.066621451320792]
本稿では,安全フィルタをバイパスできるステルスシープロンプトの構築を促す,ポストトレーニングのChain-of-Thoughtを利用したフレームワークを提案する。
また,モデルフィードバックに基づいて反復的に入力画像を摂動するReAct型適応雑音発生機構を提案する。
論文 参考訳(メタデータ) (2026-01-29T23:09:24Z) - Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs [2.903006172774433]
Beyond Visual Safety (BVS)は、MLLMの視覚的安全性境界を調査するために設計された、画像とテキストのペアのジェイルブレイクフレームワークである。
BVSは、視覚的スプライシングと帰納的再構成を活用して悪意ある意図を生の入力から切り離す"再構築世代"戦略を採用している。
本研究は,現在のMLLMの視覚安全アライメントにおける重大な脆弱性を明らかにするものである。
論文 参考訳(メタデータ) (2026-01-22T06:56:27Z) - Behind the Mask: Benchmarking Camouflaged Jailbreaks in Large Language Models [0.0]
カモフラージュされたジェイルブレイクは 明らかに良心的な言語の中に 悪意のある意図を埋め込んで 既存の安全メカニズムを回避している
本稿では, 従来のキーワードベース検出手法の誤り特性と限界に着目し, カモフラージュされたジェイルブレイクプロンプトの構築と影響について検討する。
論文 参考訳(メタデータ) (2025-09-05T19:57:38Z) - PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Understanding and Rectifying Safety Perception Distortion in VLMs [19.239094089025095]
視覚言語モデル(VLM)は、視覚モダリティを統合した後、有害な要求やジェイルブレイク攻撃の影響を受けやすいものとなる。
マルチモーダル入力は、テキストのみの入力に比べて、モダリティによって誘導されるアクティベーションシフトを"サファー"方向に導入する。
本研究では、モダリティによるアクティベーションシフトを分解・校正し、モダリティの安全性への影響を低減させる訓練自由な手法であるShiftDCを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:06:48Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。