Fugu-MT 論文翻訳(概要): Cross-Lingual Jailbreak Detection via Semantic Codebooks

論文の概要: Cross-Lingual Jailbreak Detection via Semantic Codebooks

arxiv url: http://arxiv.org/abs/2604.25716v1
Date: Tue, 28 Apr 2026 14:43:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.910584
Title: Cross-Lingual Jailbreak Detection via Semantic Codebooks
Title（参考訳）: 意味的コードブックによる言語間ジェイルブレーク検出
Authors: Shirin Alanova, Bogdan Minko, Sabrina Sadiekh, Evgeniy Kokuykin,
Abstract要約: 大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Safety mechanisms for large language models (LLMs) remain predominantly English-centric, creating systematic vulnerabilities in multilingual deployment. Prior work shows that translating malicious prompts into other languages can substantially increase jailbreak success rates, exposing a structural cross-lingual security gap. We investigate whether such attacks can be mitigated through language-agnostic semantic similarity without retraining or language-specific adaptation. Our approach compares multilingual query embeddings against a fixed English codebook of jailbreak prompts, operating as a training-free external guardrail for black-box LLMs. We conduct a systematic evaluation across four languages, two translation pipelines, four safety benchmarks, three embedding models, and three target LLMs (Qwen, Llama, GPT-3.5). Our results reveal two distinct regimes of cross-lingual transfer. On curated benchmarks containing canonical jailbreak templates, semantic similarity generalizes reliably across languages, achieving near-perfect separability (AUC up to 0.99) and substantial reductions in absolute attack success rates under strict low-false-positive constraints. However, under distribution shift - on behaviorally diverse and heterogeneous unsafe benchmarks - separability degrades markedly (AUC $\approx$ 0.60-0.70), and recall in the security-critical low-FPR regime drops across all embedding models.
Abstract（参考訳）: 大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。以前の研究は、悪意のあるプロンプトを他の言語に翻訳することで、ジェイルブレイクの成功率が大幅に向上し、構造的な言語間セキュリティギャップが露呈することを示している。本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。提案手法は,ブラックボックスLLMのトレーニング不要な外部ガードレールとして動作する,ジェイルブレイクプロンプトの固定された英語コードブックに対する多言語クエリの埋め込みと比較する。我々は,4つの言語,2つの翻訳パイプライン,4つの安全ベンチマーク,3つの埋め込みモデル,および3つのLLM(Qwen,Llama,GPT-3.5)を体系的に評価する。以上の結果から,言語間移動の異なる2つの形態が明らかとなった。標準的なジェイルブレイクテンプレートを含むキュレートされたベンチマークでは、セマンティックな類似性は言語全体にわたって確実に一般化され、ほぼ完全分離性(AUC)が達成され(最大0.99まで)、絶対攻撃成功率を大幅に低下させる。しかしながら、振る舞いに多様で異質なアンセーフベンチマークによる分散シフトの下では、セパビリティは著しく低下し(AUC $\approx$ 0.60-0.70)、すべての埋め込みモデルでセキュリティクリティカルな低FPR体制のリコールが行われる。

論文の概要: Cross-Lingual Jailbreak Detection via Semantic Codebooks

関連論文リスト