論文の概要: Multilingual jailbreaking of LLMs using low-resource languages
- arxiv url: http://arxiv.org/abs/2605.18239v1
- Date: Mon, 18 May 2026 11:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.498666
- Title: Multilingual jailbreaking of LLMs using low-resource languages
- Title(参考訳): 低リソース言語を用いたLLMの多言語ジェイルブレイク
- Authors: Dylan Marx, Marcel Dunaiski,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイクの試みに対して脆弱なままである。
低資源アフリカ語(アフリカ人、キスワヒリ人、イシXhosa人、イシズルー人)を用いたマルチターン会話が安全メカニズムを回避できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to jailbreak attempts that circumvent safety guardrails. We investigate whether multi-turn conversations using low-resource African languages (Afrikaans, Kiswahili, isiXhosa, and isiZulu) can bypass safety mechanisms across commercial LLMs. We translated prompts from existing datasets and evaluated ChatGPT, Claude, DeepSeek, Gemini, and Grok through automated testing and human red-teaming with native speakers. Single-turn translation attacks proved ineffective, while multi-turn conversations achieved English harmful response rates from 52.7% (Claude 3.5 Haiku) to 83.6% (GPT-4o-mini), Afrikaans from 60.0% (Claude 3.5 Haiku) to 78.2% (GPT-4o-mini), and Kiswahili from 41.8% (Claude 3.5 Haiku) to 70.9% (DeepSeek). Human red-teaming increased jailbreak rates compared to automated methods. Over all evaluated languages, the average jailbreak rate increased from 59.8% to 75.8%, with improvements of +20.0% (Afrikaans), +12.7% (isiZulu), +12.3% (isiXhosa), and +1% (Kiswahili), demonstrating that poor translation quality limits jailbreak success. These findings suggest that vulnerabilities in LLMs persist in multilingual contexts and that translation quality is the critical factor determining jailbreak success in low-resource languages.
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全ガードレールを回避しようとするジェイルブレイクの試みに対して脆弱なままである。
低資源アフリカ語(アフリカーンス、キスワヒリ、イシXhosa、イシズルー)を用いたマルチターン会話が商業LLMの安全機構をバイパスできるかどうかを検討する。
既存のデータセットからのプロンプトを翻訳し、ChatGPT、Claude、DeepSeek、Gemini、Grokを、自動テストとネイティブスピーカーによるヒューマンリチームを通じて評価しました。
シングルターン翻訳攻撃は効果が無く、マルチターン会話は52.7%(クロード3.5ハイク)から83.6%(GPT-4o-mini)、アフリカーンス60.0%(クロード3.5ハイク)から78.2%(GPT-4o-mini)、キスワヒリ41.8%(クロード3.5ハイク)から70.9%(ディープシーク)の有害反応率を達成した。
人間のリピートは、自動化された方法と比較してジェイルブレイク率を増加させた。
全ての評価言語で、平均ジェイルブレイク率は59.8%から75.8%に増加し、+20.0%(アフリカ人)、+12.7%(イシズルー人)、+12.3%(イスワヒリ人)、+1%(キスワヒリ人)が改善され、翻訳品質の低下によりジェイルブレイクの成功が制限された。
これらの結果から,LLMの脆弱性は多言語で持続し,翻訳品質が低リソース言語におけるジェイルブレイクの成功を決定する重要な要因であることが示唆された。
関連論文リスト
- Cross-Lingual Jailbreak Detection via Semantic Codebooks [0.0]
大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。
本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-28T14:43:40Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。