論文の概要: Multi-round jailbreak attack on large language models
- arxiv url: http://arxiv.org/abs/2410.11533v2
- Date: Sat, 19 Oct 2024 09:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:35.685405
- Title: Multi-round jailbreak attack on large language models
- Title(参考訳): 大規模言語モデルに対するマルチラウンドジェイルブレイク攻撃
- Authors: Yihua Zhou, Xiaochuan Shi,
- Abstract要約: 私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
- 参考スコア(独自算出の注目度): 2.540971544359496
- License:
- Abstract: Ensuring the safety and alignment of large language models (LLMs) with human values is crucial for generating responses that are beneficial to humanity. While LLMs have the capability to identify and avoid harmful queries, they remain vulnerable to "jailbreak" attacks, where carefully crafted prompts can induce the generation of toxic content. Traditional single-round jailbreak attacks, such as GCG and AutoDAN, do not alter the sensitive words in the dangerous prompts. Although they can temporarily bypass the model's safeguards through prompt engineering, their success rate drops significantly as the LLM is further fine-tuned, and they cannot effectively circumvent static rule-based filters that remove the hazardous vocabulary. In this study, to better understand jailbreak attacks, we introduce a multi-round jailbreak approach. This method can rewrite the dangerous prompts, decomposing them into a series of less harmful sub-questions to bypass the LLM's safety checks. We first use the LLM to perform a decomposition task, breaking down a set of natural language questions into a sequence of progressive sub-questions, which are then used to fine-tune the Llama3-8B model, enabling it to decompose hazardous prompts. The fine-tuned model is then used to break down the problematic prompt, and the resulting sub-questions are sequentially asked to the victim model. If the victim model rejects a sub-question, a new decomposition is generated, and the process is repeated until the final objective is achieved. Our experimental results show a 94\% success rate on the llama2-7B and demonstrate the effectiveness of this approach in circumventing static rule-based filters.
- Abstract(参考訳): 大きな言語モデル(LLM)と人間の価値の安全性と整合性を確保することは、人類にとって有益な応答を生成するために不可欠である。
LLMは有害なクエリを識別し、回避する能力を持っているが、"jailbreak"攻撃に弱いままであり、慎重に構築されたプロンプトは有害なコンテンツの生成を誘導することができる。
GCGやAutoDANのような従来の単一ラウンドのジェイルブレイク攻撃は、危険なプロンプトにおけるセンシティブな単語を変更しない。
迅速なエンジニアリングによって一時的にモデルの保護を回避できるが、LSMがさらに微調整されているため、その成功率は大幅に低下し、有害な語彙を除去する静的な規則に基づくフィルタを効果的に回避することはできない。
本研究では,ジェイルブレイク攻撃の理解を深めるために,複数ラウンドのジェイルブレイクアプローチを導入する。
この方法は危険なプロンプトを書き換え、LSMの安全チェックをバイパスするために有害でない一連のサブクエストに分解することができる。
まず、LLMを用いて分解処理を行い、自然言語の一連の質問をプログレッシブなサブクエストのシーケンスに分解し、Llama3-8Bモデルを微調整し、有害なプロンプトを分解する。
その後、微調整されたモデルを使用して問題のあるプロンプトを分解し、その結果のサブクエストを被害者モデルに順次要求する。
被害者モデルがサブクエストを拒絶した場合、新しい分解が生成され、最終目的が達成されるまでプロセスが繰り返される。
実験の結果,ラマ2-7Bでは94 %の成功率を示し,静的な規則に基づくフィルタを回避する手法の有効性を示した。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models [0.0]
本稿では,大規模言語モデル (LLM) における安全性に起因したバイアスが引き起こす固有のリスクを明らかにする,BiasJailbreakの概念を紹介する。
生成前に防御プロンプトを注入することにより、脱獄未遂を防止する効率的な防御方法であるBiasDefenseを提案する。
本研究は, LLMの倫理的バイアスが, 実際に安全でない出力を発生させる可能性を強調し, LLMをより安全でバイアスのないものにする方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:46:09Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。