論文の概要: "Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak
- arxiv url: http://arxiv.org/abs/2406.11668v1
- Date: Mon, 17 Jun 2024 15:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:03:05.470253
- Title: "Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak
- Title(参考訳): Not Aligned" は "Malicious" ではない - 大規模言語モデルの脱獄の幻覚に注意を払って
- Authors: Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Jiayi Mao, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLM)の「ジェイルブレイク」は、大きな言語モデル(LLM)の安全性に関する主要な懸念事項である。
BabyBLUE"は、既存のjailbreakベンチマークを強化するための特別なバリデーションフレームワークを導入している。
- 参考スコア(独自算出の注目度): 41.03991506580652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: "Jailbreak" is a major safety concern of Large Language Models (LLMs), which occurs when malicious prompts lead LLMs to produce harmful outputs, raising issues about the reliability and safety of LLMs. Therefore, an effective evaluation of jailbreaks is very crucial to develop its mitigation strategies. However, our research reveals that many jailbreaks identified by current evaluations may actually be hallucinations-erroneous outputs that are mistaken for genuine safety breaches. This finding suggests that some perceived vulnerabilities might not represent actual threats, indicating a need for more precise red teaming benchmarks. To address this problem, we propose the $\textbf{B}$enchmark for reli$\textbf{AB}$ilit$\textbf{Y}$ and jail$\textbf{B}$reak ha$\textbf{L}$l$\textbf{U}$cination $\textbf{E}$valuation (BabyBLUE). BabyBLUE introduces a specialized validation framework including various evaluators to enhance existing jailbreak benchmarks, ensuring outputs are useful malicious instructions. Additionally, BabyBLUE presents a new dataset as an augmentation to the existing red teaming benchmarks, specifically addressing hallucinations in jailbreaks, aiming to evaluate the true potential of jailbroken LLM outputs to cause harm to human society.
- Abstract(参考訳): 大規模言語モデル(LLMs)は,LLMに有害な出力を誘導し,LLMの信頼性と安全性に関する問題を提起する。
したがって、脱獄の効果的な評価は、その緩和戦略を開発する上で非常に重要である。
しかし、我々の研究によると、現在評価されている多くのジェイルブレイクは、本当の安全違反と誤認される幻覚と誤認のアウトプットである可能性がある。
この発見は、いくつかの認識された脆弱性が実際の脅威を表現していないことを示唆し、より正確なレッドチームベンチマークの必要性を示している。
この問題に対処するため、belied$\textbf{AB}$ilit$\textbf{Y}$ and jail$\textbf{B}$reak ha$\textbf{L}$l$\textbf{U}$cination $\textbf{E}$valuation (BabyBLUE) に対して $\textbf{B}$enchmark を提案する。
BabyBLUEは、既存のjailbreakベンチマークを強化するためのさまざまな評価ツールを含む、特殊なバリデーションフレームワークを導入し、アウトプットが有用な悪意のある命令であることを保証している。
さらに、BabyBLUEは新しいデータセットを既存のレッドチームベンチマークへの拡張として提示し、特にジェイルブレイクにおける幻覚に対処し、ジェイルブレイクされたLDM出力の真の可能性を評価し、人間の社会に害を与えることを目的としている。
関連論文リスト
- JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation [22.75124155879712]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いままである。
本稿では,JBShield-DとJBShield-Mの2つの主要コンポーネントからなる総合的ジェイルブレイク防御フレームワークJBShieldを提案する。
論文 参考訳(メタデータ) (2025-02-11T13:50:50Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models [0.0]
本稿では,大規模言語モデル (LLM) における安全性に起因したバイアスが引き起こす固有のリスクを明らかにする,BiasJailbreakの概念を紹介する。
生成前に防御プロンプトを注入することにより、脱獄未遂を防止する効率的な防御方法であるBiasDefenseを提案する。
本研究は, LLMの倫理的バイアスが, 実際に安全でない出力を発生させる可能性を強調し, LLMをより安全でバイアスのないものにする方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:46:09Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。