論文の概要: Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.20494v1
- Date: Tue, 25 Nov 2025 17:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.561954
- Title: Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
- Title(参考訳): 敵対的融合攻撃:マルチモーダル大言語モデルを混乱させる
- Authors: Jakub Hoscilowicz, Artur Janicki,
- Abstract要約: マルチモーダル大言語モデル(MLLM)に対する新たな脅威クラスであるAdversarial Confusion Attackを導入する。
ジェイルブレイクやターゲットの誤分類とは異なり、目標は、モデルが不整合または確実な出力を生成するような、系統的な破壊を誘発することである。
MLLMを駆使したエージェントが確実に動作しないように、敵画像がウェブサイトに埋め込まれる。
- 参考スコア(独自算出の注目度): 1.4037095606573826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Applications include embedding adversarial images into websites to prevent MLLM-powered agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)に対する新たな脅威クラスであるAdversarial Confusion Attackを紹介する。
ジェイルブレイクやターゲットの誤分類とは異なり、目標は、モデルが不整合または確実な出力を生成するような、系統的な破壊を誘発することである。
MLLMを駆使したエージェントが確実に動作しないように、敵画像がウェブサイトに埋め込まれる。
提案攻撃は,オープンソースMLLMの小さなアンサンブルを用いて,次点エントロピーを最大化する。
ホワイトボックス設定では、1つの逆画像が全画像と逆CAPTCHA設定の両方において、アンサンブル内の全てのモデルを破壊できることを示す。
基本的な敵対的手法(PGD)に頼っているにもかかわらず、攻撃は未確認のオープンソース(例: Qwen3-VL)とプロプライエタリ(例: GPT-5.1)の両方に転送する摂動を生成する。
関連論文リスト
- Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Implicit Jailbreak Attacks via Cross-Modal Information Concealment on Vision-Language Models [20.99874786089634]
以前のジェイルブレイク攻撃は、しばしば悪意のある命令をテキストから視覚など、整合性の低いモダリティに注入する。
IJAと呼ばれる新しい暗黙のジェイルブレイクフレームワークを提案し、少なくとも重要なビットステガノグラフィーによって悪意ある命令を画像に密かに埋め込む。
GPT-4o や Gemini-1.5 Pro などの商用モデルでは,攻撃成功率は90% 以上で,平均 3 クエリのみを用いて達成している。
論文 参考訳(メタデータ) (2025-05-22T09:34:47Z) - AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。