論文の概要: Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding
- arxiv url: http://arxiv.org/abs/2509.10931v1
- Date: Sat, 13 Sep 2025 18:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.845262
- Title: Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding
- Title(参考訳): ハームフル・プロンプト・ラダーリング: 誘惑的なスタイルとシンボリック・エンコーディングを備えたLLMのジェイルブレイク
- Authors: Seongho Joo, Hyukhun Koh, Kyomin Jung,
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示しているが、有害な目的に対する潜在的な誤用は、依然として重大な懸念である。
textbfHarmful textbfPrompt textbfLaundering (HaPLa)を提案する。
- 参考スコア(独自算出の注目度): 19.92751862281067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their potential misuse for harmful purposes remains a significant concern. To strengthen defenses against such vulnerabilities, it is essential to investigate universal jailbreak attacks that exploit intrinsic weaknesses in the architecture and learning paradigms of LLMs. In response, we propose \textbf{H}armful \textbf{P}rompt \textbf{La}undering (HaPLa), a novel and broadly applicable jailbreaking technique that requires only black-box access to target models. HaPLa incorporates two primary strategies: 1) \textit{abductive framing}, which instructs LLMs to infer plausible intermediate steps toward harmful activities, rather than directly responding to explicit harmful queries; and 2) \textit{symbolic encoding}, a lightweight and flexible approach designed to obfuscate harmful content, given that current LLMs remain sensitive primarily to explicit harmful keywords. Experimental results show that HaPLa achieves over 95% attack success rate on GPT-series models and 70% across all targets. Further analysis with diverse symbolic encoding rules also reveals a fundamental challenge: it remains difficult to safely tune LLMs without significantly diminishing their helpfulness in responding to benign queries.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示しているが、有害な目的に対する潜在的な誤用は、依然として重大な懸念である。
このような脆弱性に対する防御を強化するためには、LLMのアーキテクチャや学習パラダイムにおける固有の弱点を生かした普遍的ジェイルブレイク攻撃を調査することが不可欠である。
そこで本研究では,ターゲットモデルへのブラックボックスアクセスのみを必要とする,新しく広く適用可能なジェイルブレイク技術である,‘textbf{H}armful \textbf{P}rompt \textbf{La}undering(HaPLa)’を提案する。
HaPLaは2つの主要な戦略を取り入れている。
1) 明らかな有害なクエリに直接応答するのではなく、有害な活動に対するもっともらしい中間段階を推測するようLCMに指示する「textit{abductive framing」
2) \textit{symbolic encoding}は、有害なコンテンツを難読化するために設計された軽量で柔軟なアプローチであり、現在のLLMは、主に明示的な有害なキーワードに敏感である。
実験の結果,HPLaはGPTシリーズモデルで95%以上,全ターゲットで70%以上を達成できた。
多様な記号符号化規則によるさらなる分析は、基本的な課題も示している: 良質なクエリに応答する際の有用性を著しく低下させることなく、LLMを安全にチューニングすることは、依然として困難である。
関連論文リスト
- Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。
LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。
これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。