論文の概要: Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs
- arxiv url: http://arxiv.org/abs/2605.23157v1
- Date: Fri, 22 May 2026 02:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.159602
- Title: Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs
- Title(参考訳): 異なる弱さのモデル:フロンティアMLLMにおけるジェイルブレイク攻撃面の言語とモダリティの作り方
- Authors: Casey Ford, Madison Van Doren, Sicheng Jin, Emily Dix,
- Abstract要約: 米国英語(en-US)とメキシコスペイン語(es-MX)のジェイルブレイク脆弱性を比較検討した最初の体系的言語横断型マルチモーダル型レッドチーム研究について述べる。
私たちの中心的な発見は、言語が脆弱性を均一にスケールしないことです。
これは、言語的および視覚的なアライメント障害が、異なるメカニズムを通して機能し、切り換え言語がその分離を公開するのに十分であることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attack surface of a multimodal large language model (MLLM) is language-dependent in ways that reveal the mechanistic structure of alignment failures. We present the first systematic cross-lingual, multimodal red-teaming study comparing jailbreak vulnerability in US English (en-US) and Mexican Spanish (es-MX) across four frontier MLLMs: Claude Sonnet 4.5, GPT-5, Pixtral Large, and Qwen Omni. Using a fixed adversarial benchmark of 363 diverse prompt scenarios administered in text-only and multimodal conditions, we collected 52,272 harm ratings and binary attack success judgements from matched panels of nine native-speaker annotators per language group. Our central finding is that language does not scale vulnerability uniformly. Bayesian mixed-effects analyses reveal that linguistic framing attacks such as role-play become substantially less effective under Spanish prompting, while visually explicit multimodal attacks become more effective, which directly implicates the prompt-language interface rather than global annotator leniency. This dissociation indicates that linguistic and visual alignment failures operate through distinct mechanisms, and that switching language is sufficient to expose that separation. The practical consequence is that safety rankings are not preserved across languages. Qwen Omni overtakes Pixtral Large as the most vulnerable model among es-MX participants, a rank reversal no scalar correction of English-condition scores could recover, and absolute attack success rates have declined across model generations without closing the gaps between them. These findings demonstrate that safety evaluation frameworks treating language and modality as independent dimensions fundamentally misspecify the attack surface of globally deployed MLLMs, and must be redesigned accordingly.
- Abstract(参考訳): MLLM(Multimodal large language model)の攻撃面は、アライメント障害の機械的構造を明らかにする方法で言語に依存している。
我々は,アメリカ英語(en-US)とメキシコスペイン語(es-MX)のジェイルブレイク脆弱性を,4つのフロンティアMLLM(Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni)で比較した最初の体系的言語横断型マルチモーダルレッドチーム研究を行った。
テキストのみおよびマルチモーダル条件で管理される363の多様なプロンプトシナリオの固定逆数ベンチマークを用いて、言語グループ毎に9つのネイティブスピーカーアノテータのマッチングパネルから52,272の有害評価とバイナリアタック成功判定を収集した。
私たちの中心的な発見は、言語が脆弱性を均一にスケールしないことです。
ベイズ混合効果分析により、ロールプレイのような言語的フレーミング攻撃は、スペイン語のプロンプトによって著しく効果が低下する一方、視覚的に明示的なマルチモーダル攻撃はより効果的になり、グローバルなアノテータの簡潔さよりも、直接的にプロンプト言語インタフェースに影響を及ぼすことが明らかになった。
この解離は、言語的および視覚的アライメント障害が異なるメカニズムを通して機能し、切り換え言語がその分離を公開するのに十分であることを示している。
実際の結果は、安全ランキングが言語全体にわたって保持されていないことである。
Qwen Omni は Pixtral Large を es-MX 参加者の中で最も脆弱なモデルとして取り上げ, ランク逆転による英語条件スコアのスカラー補正は不可能であり, モデル世代間での絶対攻撃成功率は, ギャップを埋めることなく低下している。
これらの結果から,言語とモダリティを独立次元として扱う安全評価フレームワークは,世界展開MLLMの攻撃面を根本的に誤解し,それに応じて再設計する必要があることが示唆された。
関連論文リスト
- Cross-Lingual Jailbreak Detection via Semantic Codebooks [0.0]
大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。
本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-28T14:43:40Z) - Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - The Tower of Babel Revisited: Multilingual Jailbreak Prompts on Closed-Source Large Language Models [3.221349323179165]
大規模言語モデル(LLM)は、様々な領域に広く適用されているが、敵の迅速なインジェクションに弱いままである。
我々は、フロンティアプロプライエタリなソリューションを評価するために、多様な攻撃手法を活用する、第一種統合敵フレームワークを提案する。
我々の評価は、英語と中国語のセキュリティ内容の6つのカテゴリにまたがっており、32種類のジェイルブレイク攻撃に対して38,400のレスポンスが生成される。
論文 参考訳(メタデータ) (2025-05-18T07:51:19Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。