論文の概要: Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
- arxiv url: http://arxiv.org/abs/2508.10390v1
- Date: Thu, 14 Aug 2025 06:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.203661
- Title: Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
- Title(参考訳): 商業用ブラックボックスLCMの脱獄
- Authors: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu,
- Abstract要約: MDH (Malicious Content Detection based on LLMs with Human aid) というハイブリッド評価フレームワークを提案する。
D-AttackとDH-CoTという2つの新しい戦略を提案することになるのです。
Codes、データセット、判断、検出結果は、リポジトリでリリースされる。
- 参考スコア(独自算出の注目度): 21.185967800676984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating jailbreak attacks is challenging when prompts are not overtly harmful or fail to induce harmful outputs. Unfortunately, many existing red-teaming datasets contain such unsuitable prompts. To evaluate attacks accurately, these datasets need to be assessed and cleaned for maliciousness. However, existing malicious content detection methods rely on either manual annotation, which is labor-intensive, or large language models (LLMs), which have inconsistent accuracy in harmful types. To balance accuracy and efficiency, we propose a hybrid evaluation framework named MDH (Malicious content Detection based on LLMs with Human assistance) that combines LLM-based annotation with minimal human oversight, and apply it to dataset cleaning and detection of jailbroken responses. Furthermore, we find that well-crafted developer messages can significantly boost jailbreak success, leading us to propose two new strategies: D-Attack, which leverages context simulation, and DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets, judgements, and detection results will be released in github repository: https://github.com/AlienZhang1996/DH-CoT.
- Abstract(参考訳): ジャムブレイク攻撃の評価は、プロンプトが過度に有害でない場合や、有害なアウトプットを誘導できない場合に困難である。
残念ながら、多くの既存のレッドチームデータセットには、このような不適切なプロンプトが含まれている。
攻撃を正確に評価するには、これらのデータセットを悪意のあるものに評価し、クリーン化する必要がある。
しかし、既存の悪意のあるコンテンツ検出方法は、労働集約的な手動アノテーションか、有害なタイプで不整合な精度を持つ大規模言語モデル(LLM)に依存している。
MDH (Malicious Content Detection based based LLMs with Human aid) というハイブリッド評価フレームワークを提案する。
さらに、精巧な開発者メッセージがジェイルブレイクの成功を著しく促進し、コンテキストシミュレーションを活用するD-Attackと、ハイジャックされた思考の連鎖を組み込んだDH-CoTという2つの新しい戦略を提案することがわかりました。
Codes、データセット、判断、検出結果は、githubリポジトリでリリースされる。
関連論文リスト
- JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning [6.279806727611712]
そこで本研究では,MISTと命名されたIterative Semantic Tuningを用いて,大規模言語モデルのジェイルブレイクを効果的に行う手法を提案する。
MISTは、攻撃者が有害なコンテンツを誘導しながら、元の意味的意図を保存するプロンプトを反復的に洗練することを可能にする。
その結果、MISTは競合攻撃の成功率、クエリ数が少ないこと、公平な転送性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-20T07:16:47Z) - Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs [21.258254924259678]
本稿では,大規模言語モデルのロバスト性をテストするために,敵対的プロンプトを生成する手法であるグラフ・オブ・ATtacks (GoAT)を提案する。
GoATは、最先端の攻撃よりも犠牲者モデルに対するクエリが少なく、非常に効果的なジェイルブレイクプロンプトを生成するのに優れています。
GoATの推論はより複雑なグラフ構造に基づいている。
論文 参考訳(メタデータ) (2025-04-26T21:06:03Z) - AttentionDefense: Leveraging System Prompt Attention for Explainable Defense Against Novel Jailbreaks [1.3101678989725927]
脱獄の悪質性の背後にある理由を説明するのは難しい。
そこで本稿では,Small Language Models (SLM) からのシステム・プロンプト・アテンションを用いて,敵対的プロンプトを特徴付ける手法を提案する。
本研究は、LMが悪意ある入力にどう反応するかを理解し説明するために、注意機構が不可欠であることを示唆している。
論文 参考訳(メタデータ) (2025-04-10T22:29:23Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。