論文の概要: A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness
- arxiv url: http://arxiv.org/abs/2509.14297v1
- Date: Wed, 17 Sep 2025 04:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.92477
- Title: A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness
- Title(参考訳): LLMの簡便で効率的なジェイルブレイク法
- Authors: Xuan Luo, Yue Wang, Zefeng He, Geng Tu, Jing Li, Ruifeng Xu,
- Abstract要約: 安全性アライメントは、LLM(Large Language Models)が有害なクエリに応答することを防ぐことを目的としている。
本稿では,命令的有害な要求を学習スタイルの質問に変換する新しいジェイルブレイク手法であるHILLを紹介する。
幅広いモデルにわたるAdvBenchデータセットの実験は、HILLの強い有効性、一般化可能性、有害性を示している。
- 参考スコア(独自算出の注目度): 32.47621091096285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety alignment aims to prevent Large Language Models (LLMs) from responding to harmful queries. To strengthen safety protections, jailbreak methods are developed to simulate malicious attacks and uncover vulnerabilities. In this paper, we introduce HILL (Hiding Intention by Learning from LLMs), a novel jailbreak approach that systematically transforms imperative harmful requests into learning-style questions with only straightforward hypotheticality indicators. Further, we introduce two new metrics to thoroughly evaluate the utility of jailbreak methods. Experiments on the AdvBench dataset across a wide range of models demonstrate HILL's strong effectiveness, generalizability, and harmfulness. It achieves top attack success rates on the majority of models and across malicious categories while maintaining high efficiency with concise prompts. Results of various defense methods show the robustness of HILL, with most defenses having mediocre effects or even increasing the attack success rates. Moreover, the assessment on our constructed safe prompts reveals inherent limitations of LLMs' safety mechanisms and flaws in defense methods. This work exposes significant vulnerabilities of safety measures against learning-style elicitation, highlighting a critical challenge of balancing helpfulness and safety alignments.
- Abstract(参考訳): 安全性アライメントは、LLM(Large Language Models)が有害なクエリに応答することを防ぐことを目的としている。
セキュリティ保護を強化するため、悪意のある攻撃をシミュレートし脆弱性を明らかにするためにjailbreakメソッドが開発された。
本稿では,命令的有害な要求を,単純な仮説的指標だけで学習スタイルの質問に体系的に変換する新しいジェイルブレイク手法であるHILL(Hiding Intention by Learning from LLMs)を紹介する。
さらに,ジェイルブレイク手法の有用性を徹底的に評価するための2つの新しい指標を提案する。
幅広いモデルにわたるAdvBenchデータセットの実験は、HILLの強い有効性、一般化可能性、有害性を示している。
モデルの大半と悪意のあるカテゴリでトップアタック成功率を達成し、簡潔なプロンプトで高い効率を維持します。
様々な防御方法の結果はHILLの堅牢性を示しており、ほとんどの防衛は平凡な効果を持ち、攻撃の成功率も高めている。
さらに, 構築した安全プロンプトに対する評価により, LLMの安全性機構や防御方法の欠陥に固有の限界が明らかとなった。
この研究は、学習スタイルの啓発に対する安全性対策の重大な脆弱性を明らかにし、有用性と安全性の整合性のバランスをとる上で重要な課題を浮き彫りにしている。
関連論文リスト
- Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。