論文の概要: Safe2Harm: Semantic Isomorphism Attacks for Jailbreaking Large Language Models
- arxiv url: http://arxiv.org/abs/2512.13703v1
- Date: Fri, 05 Dec 2025 03:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.756189
- Title: Safe2Harm: Semantic Isomorphism Attacks for Jailbreaking Large Language Models
- Title(参考訳): Safe2Harm: 大規模言語モデルに対する意味的同型攻撃
- Authors: Fan Yang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにわたって例外的なパフォーマンスを示しているが、そのセキュリティ脆弱性は攻撃者が悪質なコンテンツを生成するために悪用することができる。
本稿では,4段階にわたる効率的な脱獄を実現するSafe2Harmセマンティックアイソモーフィック攻撃法を提案する。
7つの主要なLCMと3種類のベンチマークデータセットの実験は、Safe2Harmが強いジェイルブレイク能力を示していることを示している。
- 参考スコア(独自算出の注目度): 2.6986809342283262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance across various tasks, but their security vulnerabilities can be exploited by attackers to generate harmful content, causing adverse impacts across various societal domains. Most existing jailbreak methods revolve around Prompt Engineering or adversarial optimization, yet we identify a previously overlooked phenomenon: many harmful scenarios are highly consistent with legitimate ones in terms of underlying principles. Based on this finding, this paper proposes the Safe2Harm Semantic Isomorphism Attack method, which achieves efficient jailbreaking through four stages: first, rewrite the harmful question into a semantically safe question with similar underlying principles; second, extract the thematic mapping relationship between the two; third, let the LLM generate a detailed response targeting the safe question; finally, reversely rewrite the safe response based on the thematic mapping relationship to obtain harmful output. Experiments on 7 mainstream LLMs and three types of benchmark datasets show that Safe2Harm exhibits strong jailbreaking capability, and its overall performance is superior to existing methods. Additionally, we construct a challenging harmful content evaluation dataset containing 358 samples and evaluate the effectiveness of existing harmful detection methods, which can be deployed for LLM input-output filtering to enable defense.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクで例外的なパフォーマンスを示しているが、攻撃者が有害なコンテンツを生成するためにセキュリティ上の脆弱性を悪用し、様々な社会的領域に悪影響を及ぼす可能性がある。
既存のjailbreakメソッドの多くは、プロンプトエンジニアリングや逆境最適化を中心に展開していますが、これまで見過ごされていた現象を特定します。
そこで本研究では,まず,有害な質問を意味論的に安全な問題に書き直し,第2に,2つの主題的マッピング関係を抽出し,第3に,LLMが安全な質問を対象とする詳細な応答を生成し,第3に,テーマ的マッピング関係に基づいて安全な応答をリバースに書き直して,有害な結果を得る,という4つの段階を通じて,効率的なジェイルブレーキングを実現するSafe2Harmセマンティック同型攻撃法を提案する。
7つの主要なLCMと3種類のベンチマークデータセットの実験は、Safe2Harmが強いジェイルブレイク能力を示し、その全体的なパフォーマンスが既存の方法よりも優れていることを示している。
さらに, 358個のサンプルを含む有害なコンテンツ評価データセットを構築し, 既存の有害な検出手法の有効性を評価する。
関連論文リスト
- ArtPerception: ASCII Art-based Jailbreak on LLMs with Recognition Pre-test [1.960444962205579]
ArtPerceptionは、ASCIIアートを戦略的に活用し、最先端(SOTA)LLMのセキュリティ対策を回避した、新しいブラックボックスジェイルブレイクフレームワークである。
フェーズ1は、ASCIIアート認識のための最適なパラメータを経験的に決定するために、1回、モデル固有の事前試験を行う。
フェーズ2は、これらの洞察を活用して、非常に効率的でワンショットの悪意のあるジェイルブレイク攻撃を起動する。
論文 参考訳(メタデータ) (2025-10-11T16:28:37Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。