論文の概要: How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2602.04294v1
- Date: Wed, 04 Feb 2026 07:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.42659
- Title: How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks
- Title(参考訳): LLMの脱獄攻撃に対するプロンプトの防御効果
- Authors: Yanshu Wang, Shuaishuai Yang, Jingjing He, Tong Yang,
- Abstract要約: 大規模言語モデル(LLM)は、安全アライメントをバイパスするジェイルブレイク攻撃による脅威の増加に直面している。
Role-Oriented Prompts (RoP) や Task-Oriented Prompts (ToP) のようなプロンプトベースの防衛は効果を示したが、これらの防衛戦略における数発のデモンストレーションの役割はいまだ不明である。
我々は,RoPの安全性を最大4.5%向上させ,ToPの有効性を最大21.2%低下させ,タスク命令の注意をそらすことにより,RoPの安全性を最大4.5%向上させることを示した。
- 参考スコア(独自算出の注目度): 5.646008099702766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) face increasing threats from jailbreak attacks that bypass safety alignment. While prompt-based defenses such as Role-Oriented Prompts (RoP) and Task-Oriented Prompts (ToP) have shown effectiveness, the role of few-shot demonstrations in these defense strategies remains unclear. Prior work suggests that few-shot examples may compromise safety, but lacks investigation into how few-shot interacts with different system prompt strategies. In this paper, we conduct a comprehensive evaluation on multiple mainstream LLMs across four safety benchmarks (AdvBench, HarmBench, SG-Bench, XSTest) using six jailbreak attack methods. Our key finding reveals that few-shot demonstrations produce opposite effects on RoP and ToP: few-shot enhances RoP's safety rate by up to 4.5% through reinforcing role identity, while it degrades ToP's effectiveness by up to 21.2% through distracting attention from task instructions. Based on these findings, we provide practical recommendations for deploying prompt-based defenses in real-world LLM applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全アライメントをバイパスするジェイルブレイク攻撃による脅威の増加に直面している。
Role-Oriented Prompts (RoP) や Task-Oriented Prompts (ToP) のようなプロンプトベースの防衛は効果を示したが、これらの防衛戦略における数発のデモンストレーションの役割はいまだ不明である。
以前の研究は、少数ショットの例が安全性を損なう可能性があることを示唆していたが、異なるシステムプロンプト戦略との相互作用についての調査は欠如している。
本稿では,6つのジェイルブレイク攻撃手法を用いて,AdvBench,HarmBench,SG-Bench,XSTestの4つの安全ベンチマークにおいて,複数の主要なLCMを総合的に評価する。
少数ショットはロールアイデンティティの強化を通じてRoPの安全性を最大4.5%向上させ、タスク命令から注意をそらしてToPの有効性を最大21.2%低下させます。
これらの知見に基づいて,現実のLLMアプリケーションにプロンプトベースの防御を配置するための実践的な勧告を提供する。
関連論文リスト
- The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。
提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。
我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文 参考訳(メタデータ) (2025-01-27T12:48:47Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks) [0.0]
本稿では,有害なクエリを一見無害なサブクエストに分解することで,敵のプロンプトを生成する手法を提案する。
提案手法は, GPT-4, GPT-4o, GPT-4o-mini, GPT-3.5-Turbo モデルに対して, 攻撃成功率 (ASR) を最大で+46.22%向上させる。
論文 参考訳(メタデータ) (2024-08-28T22:51:29Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。