論文の概要: Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output
Robustness of Large Language Models
- arxiv url: http://arxiv.org/abs/2307.08487v1
- Date: Mon, 17 Jul 2023 13:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:06:04.352616
- Title: Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output
Robustness of Large Language Models
- Title(参考訳): Latent Jailbreak: 大規模言語モデルのテキスト安全性と出力ロバスト性を評価するベンチマーク
- Authors: Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan
- Abstract要約: 我々は、潜在ジェイルブレイクプロンプトデータセットを用いて、テキストの安全性と出力について研究する。
具体的には、翻訳対象のテキストが悪意のある命令を含む翻訳などの通常のタスクを完了するよう、モデルに指示する。
本稿では, LLMの安全性と堅牢性について, 明示的な正規命令の位置, 単語置換, 悪意のある命令におけるターゲットグループ, 悪意のある命令におけるキューワード, 命令置換に関する系統的分析を行った。
- 参考スコア(独自算出の注目度): 12.642272784857782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have invested considerable effort into ensuring that large
language models (LLMs) align with human values, using various training
techniques, such as instruction tuning and Reinforcement Learning from Human or
AI Feedback (RLHF/RLAIF), to guard against text unsafety. However, these
defenses remain incredibly vulnerable to some jailbreak attacks, which can
cause the model to become overly defensive to sensitive topics or still
generate harmful content, leaving the model performance particularly fragile.
Therefore, to comprehensively study text safety and output robustness, we
propose a latent jailbreak prompt dataset, each involving malicious instruction
embedding. Specifically, we instruct the model to complete a regular task, such
as translation, where the text to be translated contains malicious
instructions. To further analyze the safety and robustness, we design a
hierarchical annotation framework. We present a systematic analysis of the
safety and robustness of LLMs concerning the position of explicit normal
instructions, word replacement (verbs in explicit normal instructions, target
groups in malicious instructions, cue words in malicious instructions), and
instruction replacement (different explicit normal instructions). Our results
show that current LLMs not only have a preference for certain instruction
verbs, but also exhibit different jailbreak rates for different instruction
verbs in explicit normal instructions. In other words, the probability of
generating unsafe content by the model will be reinforced to varying degrees
depending on the instruction verb in explicit normal instructions. Code and
data are available at https://github.com/qiuhuachuan/latent-jailbreak.
- Abstract(参考訳): 研究者は、大規模な言語モデル(LLM)が人間の価値と整合することを保証するために、インストラクションチューニングや人間やAIフィードバックからの強化学習(RLHF/RLAIF)など、さまざまなトレーニング技術を使用して、テキストの安全性を保護している。
しかし、これらの防御は、いくつかのジェイルブレイク攻撃に対して信じられないほど脆弱であり、モデルが機密性の高いトピックに対して過度に防御されるか、有害なコンテンツを生成する可能性があるため、特にモデル性能は脆弱である。
そこで本研究では,テキスト安全性と出力堅牢性を包括的に研究するために,悪意のある命令埋め込みを含む潜伏ジェイルブレイクプロンプトデータセットを提案する。
具体的には、翻訳対象のテキストが悪意のある命令を含む翻訳などの通常のタスクを完了するようモデルに指示する。
安全性と堅牢性をさらに分析するため,階層型アノテーションフレームワークを設計する。
本稿では, 明示的正規命令の位置, 単語置換(明示的正規命令の動詞, 悪意的命令のターゲットグループ, 悪意的命令のキューワード), 命令置換(異なる明示的正規命令)について, LLMの安全性と堅牢性について, 系統的分析を行った。
以上の結果から,現在のLLMは特定の命令動詞を優先するだけでなく,明示的な正規命令で異なる命令動詞に対して異なるジェイルブレイク率を示すことが明らかとなった。
言い換えれば、モデルによって安全でないコンテンツを生成する確率は、明示的な正規命令の命令動詞によって異なる程度に強化される。
コードとデータはhttps://github.com/qiuhuachuan/latent-jailbreakで入手できる。
関連論文リスト
- Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
セーフかつレスポンシブルな大規模言語モデル (textbfSR$_textLLM$) を導入する。
textbfSR$_textLLM$は知識の整合性を維持しながらバイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - Nevermind: Instruction Override and Moderation in Large Language Models [2.0935496890864207]
競合状況下での明示的な指示のタスクにおいて、最もポピュラーなプロプライエタリかつ異なるサイズのオープンソースモデルを調査し、ベンチマークする。
提案手法は,言語モデルが与えられた安全フィルタやガイドラインに従う能力と根本的に相反する。
論文 参考訳(メタデータ) (2024-02-05T18:58:19Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。