Fugu-MT 論文翻訳(概要): Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models

論文の概要: Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models

arxiv url: http://arxiv.org/abs/2307.08487v3
Date: Mon, 28 Aug 2023 08:35:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 22:52:19.692913
Title: Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models
Title（参考訳）: Latent Jailbreak: 大規模言語モデルのテキスト安全性と出力ロバスト性を評価するベンチマーク
Authors: Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan
Abstract要約: 大きな言語モデル(LLM)は人間の値と一致し、安全なテキストを生成するように設計されている。以前のJailbreaking LLMのベンチマークでは、主にモデルの安全性の評価に焦点が当てられていた。本稿では,LLMの安全性とロバスト性を両立させ,バランスの取れたアプローチの必要性を強調した。
参考スコア（独自算出の注目度）: 28.37026309925163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Considerable research efforts have been devoted to ensuring that large language models (LLMs) align with human values and generate safe text. However, an excessive focus on sensitivity to certain topics can compromise the model's robustness in following instructions, thereby impacting its overall performance in completing tasks. Previous benchmarks for jailbreaking LLMs have primarily focused on evaluating the safety of the models without considering their robustness. In this paper, we propose a benchmark that assesses both the safety and robustness of LLMs, emphasizing the need for a balanced approach. To comprehensively study text safety and output robustness, we introduce a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, with the text to be translated containing malicious instructions. To further analyze safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs regarding the position of explicit normal instructions, word replacements (verbs in explicit normal instructions, target groups in malicious instructions, cue words for explicit normal instructions), and instruction replacements (different explicit normal instructions). Our results demonstrate that current LLMs not only prioritize certain instruction verbs but also exhibit varying jailbreak rates for different instruction verbs in explicit normal instructions. Code and data are available at https://github.com/qiuhuachuan/latent-jailbreak.
Abstract（参考訳）: 大規模な言語モデル(LLM)が人間の価値と一致し、安全なテキストを生成することを保証するために、考慮すべき研究努力が注がれている。しかしながら、特定のトピックに対する過度な関心は、次の命令でモデルの堅牢性を損なう可能性があるため、タスクの完了時の全体的なパフォーマンスに影響を及ぼす。ジェイルブレイク LLM の以前のベンチマークは主に、堅牢性を考慮せずにモデルの安全性を評価することに重点を置いている。本稿では,LLMの安全性とロバスト性を評価するベンチマークを提案し,バランスの取れたアプローチの必要性を強調した。テキストの安全性と出力堅牢性を包括的に研究するために、悪意のある命令埋め込みを含む潜伏ジェイルブレイクプロンプトデータセットを導入する。具体的には、悪意のある命令を含むテキストを翻訳して、翻訳などの通常のタスクを完了するようモデルに指示する。安全性と堅牢性をさらに分析するため,階層型アノテーションフレームワークを設計する。本稿では,明示的正規命令の位置,単語置換(明示的正規命令のバーブ,悪意のある命令のターゲットグループ,明示的正規命令のキューワード),命令置換(異なる明示的正規命令)に関するllmの安全性とロバスト性に関する系統的分析を行う。以上の結果から,現在のLLMは特定の命令動詞を優先するだけでなく,明示的な正規命令で異なる命令動詞に対して異なるジェイルブレイク率を示すことが明らかとなった。コードとデータはhttps://github.com/qiuhuachuan/latent-jailbreakで入手できる。

関連論文リスト

Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
Smoke and Mirrors: Jailbreaking LLM-based Code Generation via Implicit Malicious Prompts [5.718926328180089]
本稿では,コード生成における安全性の懸念を明らかにするために,JailbreakingアプローチであるCodeJailbreakerを紹介する。最近リリースされたRCCBenchベンチマークの実験では、CodeJailbreakerが従来のジェイルブレイク戦略を大きく上回っていることが示されている。
論文参考訳（メタデータ） (2025-03-23T06:06:12Z)
Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。これらの脆弱性の大きな原因の1つは、命令階層の欠如である。本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文参考訳（メタデータ） (2024-10-09T12:52:41Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。セーフかつレスポンシブルな大規模言語モデル (textbfSR$_textLLM$) を導入する。 textbfSR$_textLLM$は知識の整合性を維持しながらバイアスを効果的に低減する。
論文参考訳（メタデータ） (2024-04-01T18:10:05Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)
Nevermind: Instruction Override and Moderation in Large Language Models [2.0935496890864207]
競合状況下での明示的な指示のタスクにおいて、最もポピュラーなプロプライエタリかつ異なるサイズのオープンソースモデルを調査し、ベンチマークする。提案手法は,言語モデルが与えられた安全フィルタやガイドラインに従う能力と根本的に相反する。
論文参考訳（メタデータ） (2024-02-05T18:58:19Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文参考訳（メタデータ） (2023-05-23T06:38:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。