論文の概要: Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
- arxiv url: http://arxiv.org/abs/2508.10390v2
- Date: Sat, 11 Oct 2025 12:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.135399
- Title: Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
- Title(参考訳): 商業用ブラックボックスLCMの脱獄
- Authors: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu,
- Abstract要約: 商用ブラックボックスモデルの脱獄は、今日最も困難で深刻なセキュリティ脅威の1つだ。
本稿では, 文脈シミュレーションを強化するD-Attackと, 疑似連鎖による攻撃を強化するDH-CoTの2つの開発者ロールベースの攻撃を提案する。
- 参考スコア(独自算出の注目度): 24.16339954357534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreaking commercial black-box models is one of the most challenging and serious security threats today. Existing attacks achieve certain success on non-reasoning models but perform limitedly on the latest reasoning models. We discover that carefully crafted developer messages can markedly boost jailbreak effectiveness. Building on this, we propose two developer-role-based attacks: D-Attack, which enhances contextual simulation, and DH-CoT, which strengthens attacks with deceptive chain-of-thought. In experiments, we further diccover that current red-teaming datasets often contain samples unsuited for measuring attack gains: prompts that fail to trigger defenses, prompts where malicious content is not the sole valid output, and benign prompts. Such data hinders accurate measurement of the true improvement brought by an attack method. To address this, we introduce MDH, a Malicious content Detection approach combining LLM-based screening with Human verification to balance accuracy and cost, with which we clean data and build the RTA dataset series. Experiments demonstrate that MDH reliably filters low-quality samples and that developer messages significantly improve jailbreak attack success. Codes, datasets, and other results will be released in https://github.com/AlienZhang1996/DH-CoT.
- Abstract(参考訳): 商用ブラックボックスモデルの脱獄は、今日最も困難で深刻なセキュリティ脅威の1つだ。
既存の攻撃は、非推論モデルでは一定の成功を収めるが、最新の推論モデルでは限定的に実行される。
慎重に作成された開発者メッセージが、ジェイルブレイクの有効性を著しく向上させることに気付きました。
そこで我々は,D-Attack(文脈シミュレーション)とDH-CoT(認識連鎖による攻撃)の2つの開発者ロールベースの攻撃を提案する。
実験では、現在のレッドチームデータセットには、攻撃の利得を測定するのに適さないサンプルがしばしば含まれており、防御のトリガーに失敗するプロンプト、悪意のあるコンテンツが唯一の有効なアウトプットではない場合のプロンプト、良心的なプロンプトが含まれていることがさらに明らかになった。
このようなデータは、攻撃方法による真の改善の正確な測定を妨げる。
MDHは、LCMベースのスクリーニングとヒューマン検証を組み合わせた悪意コンテンツ検出手法で、精度とコストのバランスを保ち、データのクリーン化とRTAデータセットシリーズの構築を行う。
MDHは品質の低いサンプルを確実にフィルタリングし、開発者メッセージがジェイルブレイク攻撃の成功を大幅に改善することを示した。
コード、データセット、その他の結果はhttps://github.com/AlienZhang1996/DH-CoT.comで公開される。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning [6.279806727611712]
そこで本研究では,MISTと命名されたIterative Semantic Tuningを用いて,大規模言語モデルのジェイルブレイクを効果的に行う手法を提案する。
MISTは、攻撃者が有害なコンテンツを誘導しながら、元の意味的意図を保存するプロンプトを反復的に洗練することを可能にする。
その結果、MISTは競合攻撃の成功率、クエリ数が少ないこと、公平な転送性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-20T07:16:47Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs [21.258254924259678]
本稿では,大規模言語モデルのロバスト性をテストするために,敵対的プロンプトを生成する手法であるグラフ・オブ・ATtacks (GoAT)を提案する。
GoATは、最先端の攻撃よりも犠牲者モデルに対するクエリが少なく、非常に効果的なジェイルブレイクプロンプトを生成するのに優れています。
GoATの推論はより複雑なグラフ構造に基づいている。
論文 参考訳(メタデータ) (2025-04-26T21:06:03Z) - AttentionDefense: Leveraging System Prompt Attention for Explainable Defense Against Novel Jailbreaks [1.3101678989725927]
脱獄の悪質性の背後にある理由を説明するのは難しい。
そこで本稿では,Small Language Models (SLM) からのシステム・プロンプト・アテンションを用いて,敵対的プロンプトを特徴付ける手法を提案する。
本研究は、LMが悪意ある入力にどう反応するかを理解し説明するために、注意機構が不可欠であることを示唆している。
論文 参考訳(メタデータ) (2025-04-10T22:29:23Z) - Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation [12.376058015074186]
本稿では,これらの攻撃の成功率を高めるために,対話履歴を活用する新しいジェイルブレイクパラダイムであるダイアログインジェクションアタック(DIA)を導入する。
DIAはブラックボックスで動作し、チャットAPIへのアクセスやLLMのチャットテンプレートの知識のみを必要とする。
Llama-3.1 や GPT-4o など最近の LLM では,DIA が攻撃成功率を達成している。
論文 参考訳(メタデータ) (2025-03-11T09:00:45Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Don't Say No: Jailbreaking LLM by Suppressing Refusal [15.350198454170895]
DSN(Don't Say No)攻撃を導入し、コサイン崩壊スケジュール法と拒絶抑制を組み合わせ、より高い成功率を達成する。
大規模な実験により、DSNはベースライン攻撃より優れ、最先端の攻撃成功率(ASR)を達成することが示された。
論文 参考訳(メタデータ) (2024-04-25T07:15:23Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。