Fugu-MT 論文翻訳(概要): Multilingual jailbreaking of LLMs using low-resource languages

論文の概要: Multilingual jailbreaking of LLMs using low-resource languages

arxiv url: http://arxiv.org/abs/2605.18239v1
Date: Mon, 18 May 2026 11:33:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:49.498666
Title: Multilingual jailbreaking of LLMs using low-resource languages
Title（参考訳）: 低リソース言語を用いたLLMの多言語ジェイルブレイク
Authors: Dylan Marx, Marcel Dunaiski,
Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイクの試みに対して脆弱なままである。低資源アフリカ語(アフリカ人、キスワヒリ人、イシXhosa人、イシズルー人)を用いたマルチターン会話が安全メカニズムを回避できるかどうかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) remain vulnerable to jailbreak attempts that circumvent safety guardrails. We investigate whether multi-turn conversations using low-resource African languages (Afrikaans, Kiswahili, isiXhosa, and isiZulu) can bypass safety mechanisms across commercial LLMs. We translated prompts from existing datasets and evaluated ChatGPT, Claude, DeepSeek, Gemini, and Grok through automated testing and human red-teaming with native speakers. Single-turn translation attacks proved ineffective, while multi-turn conversations achieved English harmful response rates from 52.7% (Claude 3.5 Haiku) to 83.6% (GPT-4o-mini), Afrikaans from 60.0% (Claude 3.5 Haiku) to 78.2% (GPT-4o-mini), and Kiswahili from 41.8% (Claude 3.5 Haiku) to 70.9% (DeepSeek). Human red-teaming increased jailbreak rates compared to automated methods. Over all evaluated languages, the average jailbreak rate increased from 59.8% to 75.8%, with improvements of +20.0% (Afrikaans), +12.7% (isiZulu), +12.3% (isiXhosa), and +1% (Kiswahili), demonstrating that poor translation quality limits jailbreak success. These findings suggest that vulnerabilities in LLMs persist in multilingual contexts and that translation quality is the critical factor determining jailbreak success in low-resource languages.
Abstract（参考訳）: 大きな言語モデル(LLM)は、安全ガードレールを回避しようとするジェイルブレイクの試みに対して脆弱なままである。低資源アフリカ語(アフリカーンス、キスワヒリ、イシXhosa、イシズルー)を用いたマルチターン会話が商業LLMの安全機構をバイパスできるかどうかを検討する。既存のデータセットからのプロンプトを翻訳し、ChatGPT、Claude、DeepSeek、Gemini、Grokを、自動テストとネイティブスピーカーによるヒューマンリチームを通じて評価しました。シングルターン翻訳攻撃は効果が無く、マルチターン会話は52.7%(クロード3.5ハイク)から83.6%(GPT-4o-mini)、アフリカーンス60.0%(クロード3.5ハイク)から78.2%(GPT-4o-mini)、キスワヒリ41.8%(クロード3.5ハイク)から70.9%(ディープシーク)の有害反応率を達成した。人間のリピートは、自動化された方法と比較してジェイルブレイク率を増加させた。全ての評価言語で、平均ジェイルブレイク率は59.8%から75.8%に増加し、+20.0%(アフリカ人)、+12.7%(イシズルー人)、+12.3%(イスワヒリ人)、+1%(キスワヒリ人)が改善され、翻訳品質の低下によりジェイルブレイクの成功が制限された。これらの結果から,LLMの脆弱性は多言語で持続し,翻訳品質が低リソース言語におけるジェイルブレイクの成功を決定する重要な要因であることが示唆された。

論文の概要: Multilingual jailbreaking of LLMs using low-resource languages

関連論文リスト