論文の概要: Cross-Lingual Jailbreak Detection via Semantic Codebooks
- arxiv url: http://arxiv.org/abs/2604.25716v1
- Date: Tue, 28 Apr 2026 14:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.910584
- Title: Cross-Lingual Jailbreak Detection via Semantic Codebooks
- Title(参考訳): 意味的コードブックによる言語間ジェイルブレーク検出
- Authors: Shirin Alanova, Bogdan Minko, Sabrina Sadiekh, Evgeniy Kokuykin,
- Abstract要約: 大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。
本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety mechanisms for large language models (LLMs) remain predominantly English-centric, creating systematic vulnerabilities in multilingual deployment. Prior work shows that translating malicious prompts into other languages can substantially increase jailbreak success rates, exposing a structural cross-lingual security gap. We investigate whether such attacks can be mitigated through language-agnostic semantic similarity without retraining or language-specific adaptation. Our approach compares multilingual query embeddings against a fixed English codebook of jailbreak prompts, operating as a training-free external guardrail for black-box LLMs. We conduct a systematic evaluation across four languages, two translation pipelines, four safety benchmarks, three embedding models, and three target LLMs (Qwen, Llama, GPT-3.5). Our results reveal two distinct regimes of cross-lingual transfer. On curated benchmarks containing canonical jailbreak templates, semantic similarity generalizes reliably across languages, achieving near-perfect separability (AUC up to 0.99) and substantial reductions in absolute attack success rates under strict low-false-positive constraints. However, under distribution shift - on behaviorally diverse and heterogeneous unsafe benchmarks - separability degrades markedly (AUC $\approx$ 0.60-0.70), and recall in the security-critical low-FPR regime drops across all embedding models.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。
以前の研究は、悪意のあるプロンプトを他の言語に翻訳することで、ジェイルブレイクの成功率が大幅に向上し、構造的な言語間セキュリティギャップが露呈することを示している。
本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。
提案手法は,ブラックボックスLLMのトレーニング不要な外部ガードレールとして動作する,ジェイルブレイクプロンプトの固定された英語コードブックに対する多言語クエリの埋め込みと比較する。
我々は,4つの言語,2つの翻訳パイプライン,4つの安全ベンチマーク,3つの埋め込みモデル,および3つのLLM(Qwen,Llama,GPT-3.5)を体系的に評価する。
以上の結果から,言語間移動の異なる2つの形態が明らかとなった。
標準的なジェイルブレイクテンプレートを含むキュレートされたベンチマークでは、セマンティックな類似性は言語全体にわたって確実に一般化され、ほぼ完全分離性(AUC)が達成され(最大0.99まで)、絶対攻撃成功率を大幅に低下させる。
しかしながら、振る舞いに多様で異質なアンセーフベンチマークによる分散シフトの下では、セパビリティは著しく低下し(AUC $\approx$ 0.60-0.70)、すべての埋め込みモデルでセキュリティクリティカルな低FPR体制のリコールが行われる。
関連論文リスト
- GUARD-SLM: Token Activation-Based Defense Against Jailbreak Attacks for Small Language Models [1.4419081419844124]
小型言語モデルは、計算コストとレイテンシを大幅に低減した競争性能を提供する。
既存のジェイルブレイク防御は、異種攻撃に対するロバスト性に制限がある。
本稿では,悪質なプロンプトをフィルタリングする軽量なトークンアクティベーションベースのGUARD-SLMを提案する。
論文 参考訳(メタデータ) (2026-03-28T19:17:46Z) - Multilingual Collaborative Defense for Large Language Models [39.28665703568305]
注目すべき脆弱性の1つは、有害なクエリを稀で表現不足の言語に翻訳することで、セーフガードを回避できることである。
懸念が高まっているにもかかわらず、多言語シナリオにおけるLLMの保護に対処する研究は限られている。
本稿では,連続的かつソフトな安全プロンプトを自動で最適化する新しい学習手法であるMCDを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:47:16Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。