論文の概要: Jailbreaking LLMs with Arabic Transliteration and Arabizi
- arxiv url: http://arxiv.org/abs/2406.18725v2
- Date: Thu, 03 Oct 2024 17:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:52:47.880955
- Title: Jailbreaking LLMs with Arabic Transliteration and Arabizi
- Title(参考訳): アラビア語の文字化とアラビジによるLLMのジェイルブレイク
- Authors: Mansour Al Ghanim, Saleh Almohaimeed, Mengxin Zheng, Yan Solihin, Qian Lou,
- Abstract要約: 本研究は,大規模言語モデル(LLM)による'jailbreak'攻撃の潜在的な脆弱性を明らかにする。
我々の調査はアラビア語の調査の範囲を広げる。
アラビア語とその様々な形態を使用することで、隠されたままの情報を公開することができ、脱獄のリスクが高まる可能性がある。
- 参考スコア(独自算出の注目度): 13.252144130838557
- License:
- Abstract: This study identifies the potential vulnerabilities of Large Language Models (LLMs) to 'jailbreak' attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model's learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)の「ジェイルブレイク」攻撃に対する潜在的な脆弱性を明らかにし,アラビア語とその様々な形態に着目した。
ほとんどの研究は英語による迅速な操作に集中しているが、我々の調査はアラビア語の調査の範囲を広げている。
当初、私たちはAdvBenchベンチマークを標準アラビア語でテストし、プレフィックスインジェクションのような迅速な操作技術でも、LLMを刺激して安全でないコンテンツを生成するには不十分であることが分かりました。
しかし、アラビア文字とチャットスピーク(またはアラビジ)を使用すると、OpenAI GPT-4 や Anthropic Claude 3 Sonnet のようなプラットフォーム上で、安全でないコンテンツが生成できることが判明した。
我々の研究結果は、アラビア語とその様々な形態を用いることで、隠されたままの情報を公開し、脱獄攻撃のリスクを増大させる可能性があることを示唆している。
この露出は、モデルが特定の単語と学習した関連性によるものかもしれないと仮定し、すべての言語形式にわたるより包括的な安全トレーニングの必要性を強調します。
関連論文リスト
- Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
本研究は多言語モデルに対する言語間バックドア攻撃に焦点を当てている。
本研究では,教育指導データが有毒でない言語において,教育指導データが1つか2つの言語でどのように影響するかを検討する。
本手法は, mT5, BLOOM, GPT-3.5-turbo などのモデルにおいて, 高い攻撃成功率を示し, 複数の言語で95%を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Jailbreaking Proprietary Large Language Models using Word Substitution
Cipher [35.36615140853107]
暗号技術を用いて符号化したジェイルブレイクプロンプトを提示する。
我々は、安全でない単語を安全な単語でマッピングし、これらのマッピングされた単語を用いて安全でない質問を行う。
実験の結果、最先端のプロプライエタリモデルに対するジェイルブレイク手法の攻撃成功率(最大59.42%)が示されている。
論文 参考訳(メタデータ) (2024-02-16T11:37:05Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。