論文の概要: ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models
- arxiv url: http://arxiv.org/abs/2511.13548v1
- Date: Mon, 17 Nov 2025 16:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.593103
- Title: ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models
- Title(参考訳): ForgeDAN: 指定された大規模言語モデルをジェイルブレイクするための進化的フレームワーク
- Authors: Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu,
- Abstract要約: ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
- 参考スコア(独自算出の注目度): 8.765213350762748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of large language models (LLMs) has brought both transformative applications and new security risks, including jailbreak attacks that bypass alignment safeguards to elicit harmful outputs. Existing automated jailbreak generation approaches e.g. AutoDAN, suffer from limited mutation diversity, shallow fitness evaluation, and fragile keyword-based detection. To address these limitations, we propose ForgeDAN, a novel evolutionary framework for generating semantically coherent and highly effective adversarial prompts against aligned LLMs. First, ForgeDAN introduces multi-strategy textual perturbations across \textit{character, word, and sentence-level} operations to enhance attack diversity; then we employ interpretable semantic fitness evaluation based on a text similarity model to guide the evolutionary process toward semantically relevant and harmful outputs; finally, ForgeDAN integrates dual-dimensional jailbreak judgment, leveraging an LLM-based classifier to jointly assess model compliance and output harmfulness, thereby reducing false positives and improving detection effectiveness. Our evaluation demonstrates ForgeDAN achieves high jailbreaking success rates while maintaining naturalness and stealth, outperforming existing SOTA solutions.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な採用は、変革的アプリケーションと新たなセキュリティリスクの両方をもたらしている。
既存の自動ジェイルブレイク生成アプローチであるAutoDANは、突然変異の多様性の制限、浅いフィットネス評価、脆弱なキーワードベースの検出に悩まされている。
これらの制約に対処するため、我々は、セマンティック・コヒーレントかつ高能率なLLMに対する敵対的プロンプトを生成するための新しい進化的フレームワークであるForgeDANを提案する。
まず, ForgeDANは, 攻撃の多様性を高めるために, テキスト類似性モデルに基づく解釈可能なセマンティック適合性評価を用いて, セマンティック関連および有害な出力に向けての進化過程を導出する。最後に, ForgeDANは2次元ジェイルブレイク判定を統合し, LLMベースの分類器を活用し, モデルコンプライアンスと出力有害性を共同評価し, 偽陽性を低減し, 検出効率を向上させる。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
関連論文リスト
- bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation [4.893110077312707]
本研究では,大規模モデルの解釈可能性を活用するブラックボックス攻撃手法を提案する。
Sparse Feature Perturbation Framework (SFPF) を導入する。
実験結果から,SFPFが生成した対向テキストは,最先端の防御機構をバイパスできることが示された。
論文 参考訳(メタデータ) (2025-08-14T07:12:44Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。