Fugu-MT 論文翻訳(概要): Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models

論文の概要: Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models

arxiv url: http://arxiv.org/abs/2307.08487v1
Date: Mon, 17 Jul 2023 13:49:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 13:06:04.352616
Title: Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models
Title（参考訳）: Latent Jailbreak: 大規模言語モデルのテキスト安全性と出力ロバスト性を評価するベンチマーク
Authors: Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan
Abstract要約: 我々は、潜在ジェイルブレイクプロンプトデータセットを用いて、テキストの安全性と出力について研究する。具体的には、翻訳対象のテキストが悪意のある命令を含む翻訳などの通常のタスクを完了するよう、モデルに指示する。本稿では, LLMの安全性と堅牢性について, 明示的な正規命令の位置, 単語置換, 悪意のある命令におけるターゲットグループ, 悪意のある命令におけるキューワード, 命令置換に関する系統的分析を行った。
参考スコア（独自算出の注目度）: 12.642272784857782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Researchers have invested considerable effort into ensuring that large language models (LLMs) align with human values, using various training techniques, such as instruction tuning and Reinforcement Learning from Human or AI Feedback (RLHF/RLAIF), to guard against text unsafety. However, these defenses remain incredibly vulnerable to some jailbreak attacks, which can cause the model to become overly defensive to sensitive topics or still generate harmful content, leaving the model performance particularly fragile. Therefore, to comprehensively study text safety and output robustness, we propose a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, where the text to be translated contains malicious instructions. To further analyze the safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs concerning the position of explicit normal instructions, word replacement (verbs in explicit normal instructions, target groups in malicious instructions, cue words in malicious instructions), and instruction replacement (different explicit normal instructions). Our results show that current LLMs not only have a preference for certain instruction verbs, but also exhibit different jailbreak rates for different instruction verbs in explicit normal instructions. In other words, the probability of generating unsafe content by the model will be reinforced to varying degrees depending on the instruction verb in explicit normal instructions. Code and data are available at https://github.com/qiuhuachuan/latent-jailbreak.
Abstract（参考訳）: 研究者は、大規模な言語モデル(LLM)が人間の価値と整合することを保証するために、インストラクションチューニングや人間やAIフィードバックからの強化学習(RLHF/RLAIF)など、さまざまなトレーニング技術を使用して、テキストの安全性を保護している。しかし、これらの防御は、いくつかのジェイルブレイク攻撃に対して信じられないほど脆弱であり、モデルが機密性の高いトピックに対して過度に防御されるか、有害なコンテンツを生成する可能性があるため、特にモデル性能は脆弱である。そこで本研究では,テキスト安全性と出力堅牢性を包括的に研究するために,悪意のある命令埋め込みを含む潜伏ジェイルブレイクプロンプトデータセットを提案する。具体的には、翻訳対象のテキストが悪意のある命令を含む翻訳などの通常のタスクを完了するようモデルに指示する。安全性と堅牢性をさらに分析するため,階層型アノテーションフレームワークを設計する。本稿では, 明示的正規命令の位置, 単語置換(明示的正規命令の動詞, 悪意的命令のターゲットグループ, 悪意的命令のキューワード), 命令置換(異なる明示的正規命令)について, LLMの安全性と堅牢性について, 系統的分析を行った。以上の結果から,現在のLLMは特定の命令動詞を優先するだけでなく,明示的な正規命令で異なる命令動詞に対して異なるジェイルブレイク率を示すことが明らかとなった。言い換えれば、モデルによって安全でないコンテンツを生成する確率は、明示的な正規命令の命令動詞によって異なる程度に強化される。コードとデータはhttps://github.com/qiuhuachuan/latent-jailbreakで入手できる。

関連論文リスト

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。提案手法では,有害な指示を視覚ガジェットの系列に分解する。以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文参考訳（メタデータ） (2025-07-29T07:13:56Z)
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-07-15T08:44:46Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
Smoke and Mirrors: Jailbreaking LLM-based Code Generation via Implicit Malicious Prompts [5.718926328180089]
本稿では,コード生成における安全性の懸念を明らかにするために,JailbreakingアプローチであるCodeJailbreakerを紹介する。最近リリースされたRCCBenchベンチマークの実験では、CodeJailbreakerが従来のジェイルブレイク戦略を大きく上回っていることが示されている。
論文参考訳（メタデータ） (2025-03-23T06:06:12Z)
Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。これらの脆弱性の大きな原因の1つは、命令階層の欠如である。本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文参考訳（メタデータ） (2024-10-09T12:52:41Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。セーフかつレスポンシブルな大規模言語モデル (textbfSR$_textLLM$) を導入する。 textbfSR$_textLLM$は知識の整合性を維持しながらバイアスを効果的に低減する。
論文参考訳（メタデータ） (2024-04-01T18:10:05Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)
Nevermind: Instruction Override and Moderation in Large Language Models [2.0935496890864207]
競合状況下での明示的な指示のタスクにおいて、最もポピュラーなプロプライエタリかつ異なるサイズのオープンソースモデルを調査し、ベンチマークする。提案手法は,言語モデルが与えられた安全フィルタやガイドラインに従う能力と根本的に相反する。
論文参考訳（メタデータ） (2024-02-05T18:58:19Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文参考訳（メタデータ） (2023-05-23T06:38:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。