Fugu-MT 論文翻訳(概要): Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety

論文の概要: Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety

arxiv url: http://arxiv.org/abs/2602.11157v1
Date: Mon, 08 Dec 2025 06:48:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.506058
Title: Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety
Title（参考訳）: 多言語ジェイルブレイク防止のための応答型知識蒸留法
Authors: Max Zhang, Derek Liu, Kai Zhang, Joshua Franco, Haihao Liu,
Abstract要約: 大規模言語モデル (LLM) は世界中に展開されているが、その安全性は英語を中心に維持されている。本稿では,多言語ジェイルブレイク防止における知識蒸留(KD)の新たな応用について紹介する。プロプライエタリな教師モデルの拒絶行動を,Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに蒸留する。
参考スコア（独自算出の注目度）: 3.8433556466595937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly deployed worldwide, yet their safety alignment remains predominantly English-centric. This allows for vulnerabilities in non-English contexts, especially with low-resource languages. We introduce a novel application of knowledge distillation (KD) in the context of multilingual jailbreak prevention, examining its efficacy. We distill the refusal behaviors of a proprietary teacher model (OpenAI o1-mini) with Low-Rank Adaptation (LoRA) into three open-source student models: Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, and Qwen3-8B, using ~28,000 multilingual jailbreak prompts from XSafety via black-box response-based, parameter-efficient fine-tuning (PEFT). Evaluation on the MultiJail benchmark reveals a counterintuitive behavior: standard fine-tuning on the teacher's ``safe'' refusal data inadvertently increases Jailbreak Success Rate (JSR) for all student models, up to 16.6 percentage points. Our experiments reveal a divergent generalization to unseen languages during distillation, with varying outcomes depending on the base model. By removing a primary source of safety degradation, nuanced `boundary' refusals, we mitigate or even reverse safety declines in student models, although reductions in reasoning performance (GSM8K) persist. Overall, our exploratory study highlights the challenges and potential of KD as a technique for multilingual safety alignment, offering a foundation for future research in this direction.
Abstract（参考訳）: 大規模言語モデル(LLM)は世界中に展開されているが、その安全性は英語を中心に維持されている。これにより、特に低リソース言語では、非英語のコンテキストで脆弱性が発生する。我々は,多言語ジェイルブレイク防止の文脈における知識蒸留(KD)の新たな適用法を提案し,その有効性を検討した。そこで我々は,Lank Adaptation (LoRA) を用いたプロプライエタリな教師モデル (OpenAI o1-mini) の拒絶行動をMeta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに抽出した。教師の ``safe'' の拒否データに対する標準的な微調整は、すべての学生モデルに対する Jailbreak Success Rate (JSR) を最大16.6%増加させる。実験の結果, 基本モデルによって異なる結果が得られたが, 蒸留中の未確認言語への多種多様な一般化が示された。 GSM8Kでは, 安全劣化の原因の除去, ニュアンス付き「境界」拒絶, 学生モデルにおける安全性低下の緩和, あるいは逆転等により, 推論性能(GSM8K)の低下は持続する。全体として、我々の探索研究は、多言語安全アライメント技術としてのKDの課題と可能性を強調し、今後の研究の基盤を提供する。

関連論文リスト

Trust The Typical [8.32740388004069]
本稿では,安全をアウト・オブ・ディストリビューション(OOD)検出問題として扱うことにより,この原則を運用するフレームワークであるTrust The typical(T3)を紹介する。 T3は意味空間における許容可能なプロンプトの分布を学習し、潜在的な脅威として有意な偏差を宣言する。安全な英語のテキスト転送のみを訓練した単一のモデルは、訓練をすることなく、多様なドメインと14以上の言語に効果的に移行した。
論文参考訳（メタデータ） (2026-02-04T14:06:46Z)
MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。素早い分類のための多言語ガードレールを提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文参考訳（メタデータ） (2025-02-16T12:08:08Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-10-29T15:51:24Z)
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文参考訳（メタデータ） (2024-05-14T04:51:23Z)
A Cross-Language Investigation into Jailbreak Attacks in Large Language Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。この特定の脅威に対処する総合的な実証研究が欠如している。本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-01-30T06:04:04Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-10-02T05:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。