論文の概要: Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety
- arxiv url: http://arxiv.org/abs/2602.11157v1
- Date: Mon, 08 Dec 2025 06:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.506058
- Title: Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety
- Title(参考訳): 多言語ジェイルブレイク防止のための応答型知識蒸留法
- Authors: Max Zhang, Derek Liu, Kai Zhang, Joshua Franco, Haihao Liu,
- Abstract要約: 大規模言語モデル (LLM) は世界中に展開されているが、その安全性は英語を中心に維持されている。
本稿では,多言語ジェイルブレイク防止における知識蒸留(KD)の新たな応用について紹介する。
プロプライエタリな教師モデルの拒絶行動を,Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに蒸留する。
- 参考スコア(独自算出の注目度): 3.8433556466595937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed worldwide, yet their safety alignment remains predominantly English-centric. This allows for vulnerabilities in non-English contexts, especially with low-resource languages. We introduce a novel application of knowledge distillation (KD) in the context of multilingual jailbreak prevention, examining its efficacy. We distill the refusal behaviors of a proprietary teacher model (OpenAI o1-mini) with Low-Rank Adaptation (LoRA) into three open-source student models: Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, and Qwen3-8B, using ~28,000 multilingual jailbreak prompts from XSafety via black-box response-based, parameter-efficient fine-tuning (PEFT). Evaluation on the MultiJail benchmark reveals a counterintuitive behavior: standard fine-tuning on the teacher's ``safe'' refusal data inadvertently increases Jailbreak Success Rate (JSR) for all student models, up to 16.6 percentage points. Our experiments reveal a divergent generalization to unseen languages during distillation, with varying outcomes depending on the base model. By removing a primary source of safety degradation, nuanced `boundary' refusals, we mitigate or even reverse safety declines in student models, although reductions in reasoning performance (GSM8K) persist. Overall, our exploratory study highlights the challenges and potential of KD as a technique for multilingual safety alignment, offering a foundation for future research in this direction.
- Abstract(参考訳): 大規模言語モデル(LLM)は世界中に展開されているが、その安全性は英語を中心に維持されている。
これにより、特に低リソース言語では、非英語のコンテキストで脆弱性が発生する。
我々は,多言語ジェイルブレイク防止の文脈における知識蒸留(KD)の新たな適用法を提案し,その有効性を検討した。
そこで我々は,Lank Adaptation (LoRA) を用いたプロプライエタリな教師モデル (OpenAI o1-mini) の拒絶行動をMeta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに抽出した。
教師の ``safe'' の拒否データに対する標準的な微調整は、すべての学生モデルに対する Jailbreak Success Rate (JSR) を最大16.6%増加させる。
実験の結果, 基本モデルによって異なる結果が得られたが, 蒸留中の未確認言語への多種多様な一般化が示された。
GSM8Kでは, 安全劣化の原因の除去, ニュアンス付き「境界」拒絶, 学生モデルにおける安全性低下の緩和, あるいは逆転等により, 推論性能(GSM8K)の低下は持続する。
全体として、我々の探索研究は、多言語安全アライメント技術としてのKDの課題と可能性を強調し、今後の研究の基盤を提供する。
関連論文リスト
- Trust The Typical [8.32740388004069]
本稿では,安全をアウト・オブ・ディストリビューション(OOD)検出問題として扱うことにより,この原則を運用するフレームワークであるTrust The typical(T3)を紹介する。
T3は意味空間における許容可能なプロンプトの分布を学習し、潜在的な脅威として有意な偏差を宣言する。
安全な英語のテキスト転送のみを訓練した単一のモデルは、訓練をすることなく、多様なドメインと14以上の言語に効果的に移行した。
論文 参考訳(メタデータ) (2026-02-04T14:06:46Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。