論文の概要: Jailbreaks on Vision Language Model via Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2601.22398v1
- Date: Thu, 29 Jan 2026 23:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.117579
- Title: Jailbreaks on Vision Language Model via Multimodal Reasoning
- Title(参考訳): マルチモーダル推論による視覚言語モデルのジェイルブレイク
- Authors: Aarush Noheria, Yuguang Yao,
- Abstract要約: 本稿では,安全フィルタをバイパスできるステルスシープロンプトの構築を促す,ポストトレーニングのChain-of-Thoughtを利用したフレームワークを提案する。
また,モデルフィードバックに基づいて反復的に入力画像を摂動するReAct型適応雑音発生機構を提案する。
- 参考スコア(独自算出の注目度): 10.066621451320792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have become central to tasks such as visual question answering, image captioning, and text-to-image generation. However, their outputs are highly sensitive to prompt variations, which can reveal vulnerabilities in safety alignment. In this work, we present a jailbreak framework that exploits post-training Chain-of-Thought (CoT) prompting to construct stealthy prompts capable of bypassing safety filters. To further increase attack success rates (ASR), we propose a ReAct-driven adaptive noising mechanism that iteratively perturbs input images based on model feedback. This approach leverages the ReAct paradigm to refine adversarial noise in regions most likely to activate safety defenses, thereby enhancing stealth and evasion. Experimental results demonstrate that the proposed dual-strategy significantly improves ASR while maintaining naturalness in both text and visual domains.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的質問応答、画像キャプション、テキスト・ツー・イメージ生成といったタスクの中心となっている。
しかし、その出力は変化を促すために非常に敏感であり、安全アライメントの脆弱性を明らかにする可能性がある。
本研究では,安全フィルタをバイパスできるステルスシープロンプトの構築を促すために,訓練後のChain-of-Thought(CoT)を利用したジェイルブレイクフレームワークを提案する。
攻撃成功率(ASR)をさらに高めるため、モデルフィードバックに基づいて反復的に入力画像を摂動するReAct駆動適応雑音発生機構を提案する。
このアプローチはReActパラダイムを活用して、安全防衛を活性化する可能性が最も高い地域での敵の騒音を洗練し、ステルスと回避を促進させる。
実験結果から,本提案手法はテキスト領域と視覚領域の両方において自然性を保ちながら,ASRを大幅に改善することが示された。
関連論文リスト
- SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。