論文の概要: Multilingual Collaborative Defense for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11835v1
- Date: Sat, 17 May 2025 04:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.882374
- Title: Multilingual Collaborative Defense for Large Language Models
- Title(参考訳): 大規模言語モデルのための多言語協調防衛
- Authors: Hongliang Li, Jinan Xu, Gengping Cui, Changhao Guan, Fengran Mo, Kaiyu Huang,
- Abstract要約: 注目すべき脆弱性の1つは、有害なクエリを稀で表現不足の言語に翻訳することで、セーフガードを回避できることである。
懸念が高まっているにもかかわらず、多言語シナリオにおけるLLMの保護に対処する研究は限られている。
本稿では,連続的かつソフトな安全プロンプトを自動で最適化する新しい学習手法であるMCDを提案する。
- 参考スコア(独自算出の注目度): 33.14454771097587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robustness and security of large language models (LLMs) has become a prominent research area. One notable vulnerability is the ability to bypass LLM safeguards by translating harmful queries into rare or underrepresented languages, a simple yet effective method of "jailbreaking" these models. Despite the growing concern, there has been limited research addressing the safeguarding of LLMs in multilingual scenarios, highlighting an urgent need to enhance multilingual safety. In this work, we investigate the correlation between various attack features across different languages and propose Multilingual Collaborative Defense (MCD), a novel learning method that optimizes a continuous, soft safety prompt automatically to facilitate multilingual safeguarding of LLMs. The MCD approach offers three advantages: First, it effectively improves safeguarding performance across multiple languages. Second, MCD maintains strong generalization capabilities while minimizing false refusal rates. Third, MCD mitigates the language safety misalignment caused by imbalances in LLM training corpora. To evaluate the effectiveness of MCD, we manually construct multilingual versions of commonly used jailbreak benchmarks, such as MaliciousInstruct and AdvBench, to assess various safeguarding methods. Additionally, we introduce these datasets in underrepresented (zero-shot) languages to verify the language transferability of MCD. The results demonstrate that MCD outperforms existing approaches in safeguarding against multilingual jailbreak attempts while also exhibiting strong language transfer capabilities. Our code is available at https://github.com/HLiang-Lee/MCD.
- Abstract(参考訳): 大規模言語モデル(LLM)の堅牢性とセキュリティは、顕著な研究領域となっている。
注目すべき脆弱性の1つは、有害なクエリを希少または非表現の言語に翻訳することで、LSMのセーフガードを回避できることである。
懸念が高まっているにもかかわらず、多言語シナリオにおけるLLMの保護に対処する研究は限られており、多言語安全性を強化する緊急の必要性が浮き彫りになっている。
本研究では,様々な言語を対象とした多言語協調防衛(MCD, Multilingual Collaborative Defense)を提案する。
まず、複数の言語にわたるパフォーマンスの保護を効果的に改善します。
第二に、MCDは偽の拒絶率を最小限に抑えつつ、強力な一般化能力を維持している。
第3に、LCMトレーニングコーパスにおける不均衡による言語安全性の低下を緩和する。
MCDの有効性を評価するため,MaliciousInstructやAdvBenchといった一般的なジェイルブレイクベンチマークの多言語版を手作業で構築し,様々な保護手法を評価する。
さらに,これらのデータセットを表現不足(ゼロショット)言語で導入し,MDDの言語伝達性を検証する。
以上の結果から,MCDは多言語ジェイルブレイク対策における既存の手法よりも優れており,言語伝達能力も高いことが示された。
私たちのコードはhttps://github.com/HLiang-Lee/MCDで利用可能です。
関連論文リスト
- MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
推論を用いた多言語ガードレール構築手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - X-Guard: Multilingual Guard Agent for Content Moderation [8.233872344445675]
X-Guardは、多様な言語コンテキストにまたがるコンテンツモデレーションを提供するために設計された透明な多言語安全エージェントである。
弊社のアプローチは、複数のオープンソースの安全データセットを、明確な評価の根拠でキュレートし、拡張することを含む。
実験により,X-Guardが複数言語にわたる安全でないコンテンツの検出に有効であることを実証した。
論文 参考訳(メタデータ) (2025-04-11T01:58:06Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。