論文の概要: Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization
- arxiv url: http://arxiv.org/abs/2604.09253v1
- Date: Fri, 10 Apr 2026 12:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.848763
- Title: Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization
- Title(参考訳): Mosaic:マルチビューアンサンブル最適化によるクローズドソースVLMに対するマルチモーダルジェイルブレイク
- Authors: Yuqin Lan, Gen Li, Yuanze Hu, Weihao Shen, Zhaoxin Fan, Faguo Wu, Xiao Zhang, Laurence T. Yang, Zhiming Zheng,
- Abstract要約: ビジョンランゲージモデル(VLM)は強力だが、マルチモーダル・ジェイルブレイク攻撃には弱い。
クローズドソースVLMに対するマルチモーダルジェイルブレイクのためのマルチビューアンサンブル最適化フレームワークであるMosaicを提案する。
- 参考スコア(独自算出の注目度): 30.30398584843095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are powerful but remain vulnerable to multimodal jailbreak attacks. Existing attacks mainly rely on either explicit visual prompt attacks or gradient-based adversarial optimization. While the former is easier to detect, the latter produces subtle perturbations that are less perceptible, but is usually optimized and evaluated under homogeneous open-source surrogate-target settings, leaving its effectiveness on commercial closed-source VLMs under heterogeneous settings unclear. To examine this issue, we study different surrogate-target settings and observe a consistent gap between homogeneous and heterogeneous settings, a phenomenon we term surrogate dependency. Motivated by this finding, we propose Mosaic, a Multi-view ensemble optimization framework for multimodal jailbreak against closed-source VLMs, which alleviates surrogate dependency under heterogeneous surrogate-target settings by reducing over-reliance on any single surrogate model and visual view. Specifically, Mosaic incorporates three core components: a Text-Side Transformation module, which perturbs refusal-sensitive lexical patterns; a Multi-View Image Optimization module, which updates perturbations under diverse cropped views to avoid overfitting to a single visual view; and a Surrogate Ensemble Guidance module, which aggregates optimization signals from multiple surrogate VLMs to reduce surrogate-specific bias. Extensive experiments on safety benchmarks demonstrate that Mosaic achieves state-of-the-art Attack Success Rate and Average Toxicity against commercial closed-source VLMs.
- Abstract(参考訳): ビジョンランゲージモデル(VLM)は強力だが、マルチモーダル・ジェイルブレイク攻撃には弱い。
既存の攻撃は主に、明示的な視覚的プロンプト攻撃または勾配に基づく敵の最適化に依存する。
前者は検出し易いが、後者は知覚しにくい微妙な摂動を生成するが、通常均質なオープンソースサロゲートターゲット設定で最適化され評価され、商用のクローズドソースVLMでは不均一な設定で有効である。
そこで本研究では,異なるサロゲート・ターゲット設定について検討し,同質な設定と異質な設定との間に一貫したギャップを観察する。
この発見に触発されたMosaicは、マルチモーダル・ジェイルブレイクのためのマルチビューアンサンブル最適化フレームワークであり、単一のサロゲートモデルとビジュアルビューへの過度な依存を軽減し、異種サロゲートターゲット設定下でのサロゲート依存性を軽減する。
特に、モザイクには、3つの中核的なコンポーネントが含まれている: テキスト・サイド・トランスフォーメーション(Text-Side Transformation)モジュール、拒絶に敏感な語彙パターンを摂動する、マルチビュー画像最適化(Multi-View Image Optimization)モジュール(Multi-View Image Optimization)モジュール(Multi-View)。
安全性ベンチマークに関する大規模な実験は、モザイクが商用のクローズドソースVLMに対して最先端のアタック成功率と平均毒性を達成したことを示している。
関連論文リスト
- VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation [15.053120780189461]
逐次レコメンデーションのためのマルチモーダルエンコーダとしての視覚言語モデル(VLM)について検討する。
標準コントラスト制御微調整(SFT)は、その固有のモダリティ崩壊を増幅する。
本稿では,VLMの組込み型フレームワークであるVLM2Recを提案する。
論文 参考訳(メタデータ) (2026-03-18T07:46:30Z) - Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。
MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。
我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-05T06:01:26Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - Multimodal Generative Engine Optimization: Rank Manipulation for Vision-Language Model Rankers [9.543953966473076]
視覚言語モデル(VLM)は、現代の検索とレコメンデーションシステムにおいて、ユニモーダルエンコーダを急速に置き換えている。
本稿では、悪意あるアクターがターゲット商品を不当に宣伝することを可能にする、新たな敵対的枠組みを提案する。
最先端モデルを用いた実世界のデータセット実験により、コーディネート攻撃はテキストのみと画像のみのベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2026-01-18T04:58:28Z) - Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。