論文の概要: The Tower of Babel Revisited: Multilingual Jailbreak Prompts on Closed-Source Large Language Models
- arxiv url: http://arxiv.org/abs/2505.12287v1
- Date: Sun, 18 May 2025 07:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.144263
- Title: The Tower of Babel Revisited: Multilingual Jailbreak Prompts on Closed-Source Large Language Models
- Title(参考訳): Babelのタワー再考: クローズドソース大規模言語モデルに基づく多言語ジェイルブレイク
- Authors: Linghan Huang, Haolin Jin, Zhaoge Bi, Pengyue Yang, Peizhou Zhao, Taozhao Chen, Xiongfei Wu, Lei Ma, Huaming Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域に広く適用されているが、敵の迅速なインジェクションに弱いままである。
我々は、フロンティアプロプライエタリなソリューションを評価するために、多様な攻撃手法を活用する、第一種統合敵フレームワークを提案する。
我々の評価は、英語と中国語のセキュリティ内容の6つのカテゴリにまたがっており、32種類のジェイルブレイク攻撃に対して38,400のレスポンスが生成される。
- 参考スコア(独自算出の注目度): 3.221349323179165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have seen widespread applications across various domains, yet remain vulnerable to adversarial prompt injections. While most existing research on jailbreak attacks and hallucination phenomena has focused primarily on open-source models, we investigate the frontier of closed-source LLMs under multilingual attack scenarios. We present a first-of-its-kind integrated adversarial framework that leverages diverse attack techniques to systematically evaluate frontier proprietary solutions, including GPT-4o, DeepSeek-R1, Gemini-1.5-Pro, and Qwen-Max. Our evaluation spans six categories of security contents in both English and Chinese, generating 38,400 responses across 32 types of jailbreak attacks. Attack success rate (ASR) is utilized as the quantitative metric to assess performance from three dimensions: prompt design, model architecture, and language environment. Our findings suggest that Qwen-Max is the most vulnerable, while GPT-4o shows the strongest defense. Notably, prompts in Chinese consistently yield higher ASRs than their English counterparts, and our novel Two-Sides attack technique proves to be the most effective across all models. This work highlights a dire need for language-aware alignment and robust cross-lingual defenses in LLMs, and we hope it will inspire researchers, developers, and policymakers toward more robust and inclusive AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域に広く適用されているが、敵の迅速なインジェクションに弱いままである。
ジェイルブレイク攻撃や幻覚現象に関する既存の研究は、主にオープンソースモデルに焦点を当てているが、多言語攻撃シナリオ下でのクローズドソースLLMのフロンティアについて検討する。
本稿では,GPT-4o,DeepSeek-R1,Gemini-1.5-Pro,Qwen-Maxなど,フロンティアのプロプライエタリなソリューションを体系的に評価するために,多様な攻撃手法を活用する,先進的な統合敵フレームワークを提案する。
我々の評価は、英語と中国語のセキュリティ内容の6つのカテゴリにまたがっており、32種類のジェイルブレイク攻撃に対して38,400のレスポンスが生成される。
アタック成功率(ASR)は、3次元からの性能を評価するための定量的指標として用いられる: 素早い設計、モデルアーキテクチャ、言語環境。
以上の結果から,Qwen-Maxが最も脆弱であり,GPT-4oが最も防御力が高いことが示唆された。
特に、中国語のプロンプトは、英語のプロンプトよりも一貫して高いASRを出力し、我々の小説『Two-Sides attack technique』は、すべてのモデルで最も効果的であることが証明されている。
この研究は、LLMにおける言語対応のアライメントと堅牢な言語間防衛の必要性を強調しており、研究者、開発者、政策立案者がより堅牢で包括的なAIシステムに刺激されることを願っている。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。