論文の概要: Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
- arxiv url: http://arxiv.org/abs/2508.10390v2
- Date: Sat, 11 Oct 2025 12:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.135399
- Title: Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
- Title(参考訳): 商業用ブラックボックスLCMの脱獄
- Authors: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu,
- Abstract要約: 商用ブラックボックスモデルの脱獄は、今日最も困難で深刻なセキュリティ脅威の1つだ。
本稿では, 文脈シミュレーションを強化するD-Attackと, 疑似連鎖による攻撃を強化するDH-CoTの2つの開発者ロールベースの攻撃を提案する。
- 参考スコア(独自算出の注目度): 24.16339954357534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreaking commercial black-box models is one of the most challenging and serious security threats today. Existing attacks achieve certain success on non-reasoning models but perform limitedly on the latest reasoning models. We discover that carefully crafted developer messages can markedly boost jailbreak effectiveness. Building on this, we propose two developer-role-based attacks: D-Attack, which enhances contextual simulation, and DH-CoT, which strengthens attacks with deceptive chain-of-thought. In experiments, we further diccover that current red-teaming datasets often contain samples unsuited for measuring attack gains: prompts that fail to trigger defenses, prompts where malicious content is not the sole valid output, and benign prompts. Such data hinders accurate measurement of the true improvement brought by an attack method. To address this, we introduce MDH, a Malicious content Detection approach combining LLM-based screening with Human verification to balance accuracy and cost, with which we clean data and build the RTA dataset series. Experiments demonstrate that MDH reliably filters low-quality samples and that developer messages significantly improve jailbreak attack success. Codes, datasets, and other results will be released in https://github.com/AlienZhang1996/DH-CoT.
- Abstract(参考訳): 商用ブラックボックスモデルの脱獄は、今日最も困難で深刻なセキュリティ脅威の1つだ。
既存の攻撃は、非推論モデルでは一定の成功を収めるが、最新の推論モデルでは限定的に実行される。
慎重に作成された開発者メッセージが、ジェイルブレイクの有効性を著しく向上させることに気付きました。
そこで我々は,D-Attack(文脈シミュレーション)とDH-CoT(認識連鎖による攻撃)の2つの開発者ロールベースの攻撃を提案する。
実験では、現在のレッドチームデータセットには、攻撃の利得を測定するのに適さないサンプルがしばしば含まれており、防御のトリガーに失敗するプロンプト、悪意のあるコンテンツが唯一の有効なアウトプットではない場合のプロンプト、良心的なプロンプトが含まれていることがさらに明らかになった。
このようなデータは、攻撃方法による真の改善の正確な測定を妨げる。
MDHは、LCMベースのスクリーニングとヒューマン検証を組み合わせた悪意コンテンツ検出手法で、精度とコストのバランスを保ち、データのクリーン化とRTAデータセットシリーズの構築を行う。
MDHは品質の低いサンプルを確実にフィルタリングし、開発者メッセージがジェイルブレイク攻撃の成功を大幅に改善することを示した。
コード、データセット、その他の結果はhttps://github.com/AlienZhang1996/DH-CoT.comで公開される。
関連論文リスト
- JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning [6.279806727611712]
そこで本研究では,MISTと命名されたIterative Semantic Tuningを用いて,大規模言語モデルのジェイルブレイクを効果的に行う手法を提案する。
MISTは、攻撃者が有害なコンテンツを誘導しながら、元の意味的意図を保存するプロンプトを反復的に洗練することを可能にする。
その結果、MISTは競合攻撃の成功率、クエリ数が少ないこと、公平な転送性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-20T07:16:47Z) - Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs [21.258254924259678]
本稿では,大規模言語モデルのロバスト性をテストするために,敵対的プロンプトを生成する手法であるグラフ・オブ・ATtacks (GoAT)を提案する。
GoATは、最先端の攻撃よりも犠牲者モデルに対するクエリが少なく、非常に効果的なジェイルブレイクプロンプトを生成するのに優れています。
GoATの推論はより複雑なグラフ構造に基づいている。
論文 参考訳(メタデータ) (2025-04-26T21:06:03Z) - AttentionDefense: Leveraging System Prompt Attention for Explainable Defense Against Novel Jailbreaks [1.3101678989725927]
脱獄の悪質性の背後にある理由を説明するのは難しい。
そこで本稿では,Small Language Models (SLM) からのシステム・プロンプト・アテンションを用いて,敵対的プロンプトを特徴付ける手法を提案する。
本研究は、LMが悪意ある入力にどう反応するかを理解し説明するために、注意機構が不可欠であることを示唆している。
論文 参考訳(メタデータ) (2025-04-10T22:29:23Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。