論文の概要: Multilingual Jailbreak Challenges in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.06474v1
- Date: Tue, 10 Oct 2023 09:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:02:06.800717
- Title: Multilingual Jailbreak Challenges in Large Language Models
- Title(参考訳): 大規模言語モデルにおける多言語脱獄問題
- Authors: Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing
- Abstract要約: 本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
リスクシナリオとして,意図的でないシナリオと意図的シナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
- 参考スコア(独自算出の注目度): 96.74878032417054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) exhibit remarkable capabilities across a
wide range of tasks, they pose potential safety concerns, such as the
``jailbreak'' problem, wherein malicious instructions can manipulate LLMs to
exhibit undesirable behavior. Although several preventive measures have been
developed to mitigate the potential risks associated with LLMs, they have
primarily focused on English data. In this study, we reveal the presence of
multilingual jailbreak challenges within LLMs and consider two potential risk
scenarios: unintentional and intentional. The unintentional scenario involves
users querying LLMs using non-English prompts and inadvertently bypassing the
safety mechanisms, while the intentional scenario concerns malicious users
combining malicious instructions with multilingual prompts to deliberately
attack LLMs. The experimental results reveal that in the unintentional
scenario, the rate of unsafe content increases as the availability of languages
decreases. Specifically, low-resource languages exhibit three times the
likelihood of encountering harmful content compared to high-resource languages,
with both ChatGPT and GPT-4. In the intentional scenario, multilingual prompts
can exacerbate the negative impact of malicious instructions, with
astonishingly high rates of unsafe output: 80.92\% for ChatGPT and 40.71\% for
GPT-4. To handle such a challenge in the multilingual context, we propose a
novel \textsc{Self-Defense} framework that automatically generates multilingual
training data for safety fine-tuning. Experimental results show that ChatGPT
fine-tuned with such data can achieve a substantial reduction in unsafe content
generation. Data is available at
https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs. Warning: This
paper contains examples with potentially harmful content.
- Abstract(参考訳): 大きな言語モデル(LLM)は、幅広いタスクにわたって顕著な機能を示すが、悪意のある命令がLLMを操作して望ましくない振る舞いを示す、‘jailbreak’問題のような潜在的な安全上の懸念を生じさせる。
LLMに関連する潜在的なリスクを軽減するために、いくつかの予防策が開発されているが、それらは主に英語データに焦点を当てている。
本研究では, LLM内に多言語ジェイルブレイクが存在することを明らかにするとともに, 意図しない, 意図しない2つのリスクシナリオを検討する。
意図しないシナリオは、非英語のプロンプトを使用してLLMをクエリし、不注意に安全メカニズムをバイパスすることである。
実験の結果,意図しないシナリオでは,言語の利用率が減少するにつれて,安全でないコンテンツの割合が増加することがわかった。
特に、低リソース言語は、ChatGPTとGPT-4の両方で、高リソース言語と比較して有害なコンテンツに遭遇する確率が3倍である。
意図的なシナリオでは、多言語プロンプトは悪意のある命令の悪影響を悪化させ、驚くべきことに安全でない出力の80.92\%、GPT-440.71\%である。
このような課題に対処するため、安全微調整のための多言語学習データを自動的に生成する新しいフレームワーク「textsc{Self-Defense}」を提案する。
実験結果から,このようなデータで微調整したChatGPTは,安全でないコンテンツ生成を大幅に削減できることがわかった。
データはhttps://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMsで入手できる。
警告: 本論文は潜在的に有害なコンテンツの例を含む。
関連論文リスト
- From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Text Embedding Inversion Security for Multilingual Language Models [3.1366419227913123]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z) - All Languages Matter: On the Multilingual Safety of Large Language
Models [101.31394141244294]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。