論文の概要: A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.16765v1
- Date: Tue, 30 Jan 2024 06:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:09:37.953832
- Title: A Cross-Language Investigation into Jailbreak Attacks in Large Language
Models
- Title(参考訳): 大規模言語モデルにおける脱獄事件のクロスランゲージ調査
- Authors: Jie Li, Yi Liu, Chongyang Liu, Ling Shi, Xiaoning Ren, Yaowen Zheng,
Yang Liu, Yinxing Xue
- Abstract要約: 特に未発見の領域は多言語ジェイルブレイク攻撃である。
この特定の脅威に対処する総合的な実証研究が欠如している。
本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
- 参考スコア(独自算出の注目度): 14.226415550366504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become increasingly popular for their
advanced text generation capabilities across various domains. However, like any
software, they face security challenges, including the risk of 'jailbreak'
attacks that manipulate LLMs to produce prohibited content. A particularly
underexplored area is the Multilingual Jailbreak attack, where malicious
questions are translated into various languages to evade safety filters.
Currently, there is a lack of comprehensive empirical studies addressing this
specific threat.
To address this research gap, we conducted an extensive empirical study on
Multilingual Jailbreak attacks. We developed a novel semantic-preserving
algorithm to create a multilingual jailbreak dataset and conducted an
exhaustive evaluation on both widely-used open-source and commercial LLMs,
including GPT-4 and LLaMa. Additionally, we performed interpretability analysis
to uncover patterns in Multilingual Jailbreak attacks and implemented a
fine-tuning mitigation method. Our findings reveal that our mitigation strategy
significantly enhances model defense, reducing the attack success rate by
96.2%. This study provides valuable insights into understanding and mitigating
Multilingual Jailbreak attacks.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々なドメインにわたる高度なテキスト生成機能で人気が高まっている。
しかし、他のソフトウェアと同様に、LLMを操作して禁止コンテンツを生成する'jailbreak'攻撃のリスクなど、セキュリティ上の課題に直面している。
特に未発見の領域はマルチリンガル・ジェイルブレイク攻撃であり、悪意のある質問が様々な言語に翻訳され、安全フィルタを避ける。
現在、この特定の脅威に対処する包括的な実証研究が欠けている。
この研究ギャップに対処するため,多言語ジェイルブレイク攻撃に関する広範な実証的研究を行った。
我々は,多言語ジェイルブレイクデータセットを作成するためのセマンティック保存アルゴリズムを開発し,GPT-4 や LLaMa など,広く使われているオープンソース LLM と商用 LLM の両方に対して徹底的な評価を行った。
さらに,多言語ジェイルブレイク攻撃のパターンを明らかにするための解釈可能性解析を行い,微調整法を実装した。
その結果, 緩和戦略はモデル防御を著しく向上させ, 攻撃成功率96.2%を低下させることがわかった。
本研究は多言語脱獄攻撃の理解と緩和に有用な知見を提供する。
関連論文リスト
- Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。
GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文 参考訳(メタデータ) (2024-11-16T13:07:13Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [36.44365630876591]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。