論文の概要: Jailbreaking LLMs with Arabic Transliteration and Arabizi
- arxiv url: http://arxiv.org/abs/2406.18725v1
- Date: Wed, 26 Jun 2024 19:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 16:06:39.735250
- Title: Jailbreaking LLMs with Arabic Transliteration and Arabizi
- Title(参考訳): アラビア語の文字化とアラビジによるLLMのジェイルブレイク
- Authors: Mansour Al Ghanim, Saleh Almohaimeed, Mengxin Zheng, Yan Solihin, Qian Lou,
- Abstract要約: 本研究は,大規模言語モデル(LLM)による'jailbreak'攻撃の潜在的な脆弱性を明らかにする。
我々の調査はアラビア語の調査の範囲を広げる。
アラビア語とその様々な形態を使用することで、隠されたままの情報を公開することができ、脱獄のリスクが高まる可能性がある。
- 参考スコア(独自算出の注目度): 13.252144130838557
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study identifies the potential vulnerabilities of Large Language Models (LLMs) to 'jailbreak' attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model's learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)の「ジェイルブレイク」攻撃に対する潜在的な脆弱性を明らかにし,アラビア語とその様々な形態に着目した。
ほとんどの研究は英語による迅速な操作に集中しているが、我々の調査はアラビア語の調査の範囲を広げている。
当初、私たちはAdvBenchベンチマークを標準アラビア語でテストし、プレフィックスインジェクションのような迅速な操作技術でも、LLMを刺激して安全でないコンテンツを生成するには不十分であることが分かりました。
しかし、アラビア文字とチャットスピーク(またはアラビジ)を使用すると、OpenAI GPT-4 や Anthropic Claude 3 Sonnet のようなプラットフォーム上で、安全でないコンテンツが生成できることが判明した。
我々の研究結果は、アラビア語とその様々な形態を用いることで、隠されたままの情報を公開し、脱獄攻撃のリスクを増大させる可能性があることを示唆している。
この露出は、モデルが特定の単語と学習した関連性によるものかもしれないと仮定し、すべての言語形式にわたるより包括的な安全トレーニングの必要性を強調します。
関連論文リスト
- Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。
GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文 参考訳(メタデータ) (2024-11-16T13:07:13Z) - SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models [23.522660090382832]
イタリアでは、安全でない動作を誘発するために、モデルに安全でない動作を誘導する多発性ジェイルブレイクの有効性について検討する。
安全でないデモがほとんどなかったとしても、モデルが安全でない振る舞いを示しており、さらに不安なことに、この傾向は、より多くのデモで急速にエスカレートしているのです。
論文 参考訳(メタデータ) (2024-08-08T15:24:03Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。