論文の概要: Low-Resource Languages Jailbreak GPT-4
- arxiv url: http://arxiv.org/abs/2310.02446v2
- Date: Sat, 27 Jan 2024 22:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:44:55.919964
- Title: Low-Resource Languages Jailbreak GPT-4
- Title(参考訳): 低リソース言語 Jailbreak GPT-4
- Authors: Zheng-Xin Yong, Cristina Menghini and Stephen H. Bach
- Abstract要約: 我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
- 参考スコア(独自算出の注目度): 19.97929171158234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI safety training and red-teaming of large language models (LLMs) are
measures to mitigate the generation of unsafe content. Our work exposes the
inherent cross-lingual vulnerability of these safety mechanisms, resulting from
the linguistic inequality of safety training data, by successfully
circumventing GPT-4's safeguard through translating unsafe English inputs into
low-resource languages. On the AdvBenchmark, GPT-4 engages with the unsafe
translated inputs and provides actionable items that can get the users towards
their harmful goals 79% of the time, which is on par with or even surpassing
state-of-the-art jailbreaking attacks. Other high-/mid-resource languages have
significantly lower attack success rate, which suggests that the cross-lingual
vulnerability mainly applies to low-resource languages. Previously, limited
training on low-resource languages primarily affects speakers of those
languages, causing technological disparities. However, our work highlights a
crucial shift: this deficiency now poses a risk to all LLMs users. Publicly
available translation APIs enable anyone to exploit LLMs' safety
vulnerabilities. Therefore, our work calls for a more holistic red-teaming
efforts to develop robust multilingual safeguards with wide language coverage.
- Abstract(参考訳): 大規模言語モデル(LLM)のAI安全性トレーニングと再チーム化は、安全でないコンテンツの生成を緩和する手段である。
本研究は,安全訓練データの言語的不平等から生じる,これらの安全メカニズムの固有の言語横断的脆弱性を,安全でない英語入力を低リソース言語に翻訳することでgpt-4の安全ガードを回避できることを明らかにした。
AdvBenchmarkでは、GPT-4は、安全でない翻訳された入力と関わり、ユーザーの有害な目標に向けて、アクション可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率が著しく低いため、言語間の脆弱性は主に低リソース言語に適用される。
以前は、低リソース言語での限られたトレーニングは、主にこれらの言語の話者に影響し、技術的格差を引き起こしていた。
しかし、我々の研究は重大なシフトを浮き彫りにしている。この不足は、現在すべてのllmsユーザーにリスクをもたらしている。
公開の翻訳APIにより、誰でもLLMの安全性の脆弱性を悪用できる。
それゆえ,我々の研究は,幅広い言語範囲の堅牢な多言語セーフガードを開発するための,より包括的な赤チーム活動を求めている。
関連論文リスト
- Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。
攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。
この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文 参考訳(メタデータ) (2024-04-03T01:32:31Z) - A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-30T06:04:04Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。