論文の概要: When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?
- arxiv url: http://arxiv.org/abs/2605.27932v1
- Date: Wed, 27 May 2026 04:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.738277
- Title: When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?
- Title(参考訳): シンク・ウィズ・イメージの安全性:マルチモーダル・ジェイルブレイク・ロバストネスの決定は?
- Authors: Yuan Tian, Bing Hu, Fang Wu, Xiaomin Li, Binghang Lu, Neil Zhenqiang Gong,
- Abstract要約: 思考とイメージの推論は、大きな視覚言語モデルのための新しい推論パラダイムとして現れつつある。
複数の視覚言語モデル全体で、明示的なイメージとツールの相互作用は攻撃の成功率を低くする。
本稿では,イメージツール実行を隠れ表現の残留シフトとしてモデル化した画像ツール安全ベクトルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.492554896054024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Think-with-image reasoning is emerging as a new inference paradigm for large vision-language models, but its safety implications remain poorly understood. Existing systems already span multiple process designs, including direct response generation, text-only prior turn, visual-state manipulation, and explicit external image-tool invocation. In this paper, we ask which of these evaluated paradigms improves multimodal jailbreak robustness, and why. Across multiple vision-language models, explicit image-tool interaction yields the lowest attack success rates in our experiments, reducing jailbreak success by around 30% relative on average across the evaluated models. This finding is initially surprising: ASR remains low even when the returned image-tool output is manually overridden or itself unsafe-looking, but returns near direct-answering levels under text-only prior turn controls. These results indicate that the lower ASR is not explained by benign returned-image semantics or by the textual image-tool trace alone. To explain the pattern, we introduce an image-tool safety vector framework that models image-tool invocation as a residual shift in hidden representations toward a safety-relevant direction. Representation-level analyses and activation interventions support this account. Overall, our results suggest that explicit image-tool interaction is a promising design pattern for improving jailbreak robustness, while also motivating pipeline-specific safety evaluation.
- Abstract(参考訳): 思考とイメージの推論は、大きな視覚言語モデルのための新しい推論パラダイムとして浮上しているが、その安全性はいまだに理解されていない。
既存のシステムはすでに、直接応答生成、テキストのみのプリターン、視覚状態操作、明示的な外部イメージツール呼び出しなど、複数のプロセス設計にまたがっている。
本稿では,これらの評価パラダイムのどちらがマルチモーダルジェイルブレイクの堅牢性を改善するのか,なぜなのかを問う。
複数の視覚言語モデル全体で、明示的な画像とツールの相互作用は、我々の実験において最小の攻撃成功率をもたらし、評価されたモデル全体で平均で約30%のジェイルブレイク成功率を減少させる。
ASRは、返されるイメージツール出力が手動でオーバーライドされている場合や、それ自身は安全ではない場合であっても低いままだが、テキストオンリーのプリターンコントロール下では、直接答えのレベル近くを返す。
これらの結果から,下位のASRは良性返却画像意味論やテキスト・ツール・トレースだけでは説明できないことが示唆された。
このパターンを説明するために,画像ツール実行を隠れ表現の残留シフトとしてモデル化した画像ツール安全ベクトルフレームワークを提案する。
表現レベルの分析とアクティベーションの介入がこの説明を支持する。
全体としては、明示的なイメージとツールの相互作用は、ジェイルブレイクの堅牢性を改善する上で有望な設計パターンであり、パイプライン固有の安全性評価を動機付けていることを示唆している。
関連論文リスト
- Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment [10.937124527565606]
近年のビジュアルコンテクスト圧縮の進歩により、MLLMはテキストを画像にレンダリングすることで、超長いコンテクストを効率的に処理できるようになっている。
このパラダイムに固有の致命的な脆弱性を特定します。
我々の研究は、視覚に基づく圧縮の重大なリスクを明らかにし、将来のMLLMの安全な設計のための重要な洞察を提供する。
論文 参考訳(メタデータ) (2026-05-08T05:19:23Z) - CASCADE: Context-Aware Relaxation for Speculative Image Decoding [9.004650208708235]
自己回帰生成は高忠実度画像合成のための強力なアプローチである。
現在のアプローチでは、テキスト生成で見られるものと同等の効率向上を達成できない。
木に基づく投機的復号法で自然に現れる対象モデルの振舞いにおいて,これまで見過ごされていたパターンを同定する。
論文 参考訳(メタデータ) (2026-05-08T04:32:17Z) - Diversity over Uniformity: Rethinking Representation in Generated Image Detection [22.020742109848317]
我々は、確実に生成された画像検出は、単一の決定経路に依存するのではなく、複数の判断視点を維持するべきであると論じている。
本稿では,タスク非関係なコンポーネントをフィルタし,表現空間における様々なフォージェリーキュー間の過剰なオーバーラップを抑えるアンチファイン・コラプス学習フレームワークを提案する。
この設計は、モデル内で多様な補完的な証拠を維持し、小さな敬意的な手がかりへの依存を減らし、目に見えない生成条件下で堅牢性を高める。
論文 参考訳(メタデータ) (2026-02-28T15:42:12Z) - Jailbreaks on Vision Language Model via Multimodal Reasoning [10.066621451320792]
本稿では,安全フィルタをバイパスできるステルスシープロンプトの構築を促す,ポストトレーニングのChain-of-Thoughtを利用したフレームワークを提案する。
また,モデルフィードバックに基づいて反復的に入力画像を摂動するReAct型適応雑音発生機構を提案する。
論文 参考訳(メタデータ) (2026-01-29T23:09:24Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Semantic-Aware Reconstruction Error for Detecting AI-Generated Images [22.83053631078616]
本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
SAREは、さまざまな生成モデル間で偽画像を検出するための堅牢で差別的な機能を提供する。
また,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
論文 参考訳(メタデータ) (2025-08-13T04:37:36Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。