論文の概要: Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.22085v1
- Date: Fri, 24 Oct 2025 23:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.814428
- Title: Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models
- Title(参考訳): Jailbreak Mimicry: 大規模言語モデルのためのナラティブベースのJailbreakの自動発見
- Authors: Pavlos Ntais,
- Abstract要約: 大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) remain vulnerable to sophisticated prompt engineering attacks that exploit contextual framing to bypass safety mechanisms, posing significant risks in cybersecurity applications. We introduce Jailbreak Mimicry, a systematic methodology for training compact attacker models to automatically generate narrative-based jailbreak prompts in a one-shot manner. Our approach transforms adversarial prompt discovery from manual craftsmanship into a reproducible scientific process, enabling proactive vulnerability assessment in AI-driven security systems. Developed for the OpenAI GPT-OSS-20B Red-Teaming Challenge, we use parameter-efficient fine-tuning (LoRA) on Mistral-7B with a curated dataset derived from AdvBench, achieving an 81.0% Attack Success Rate (ASR) against GPT-OSS-20B on a held-out test set of 200 items. Cross-model evaluation reveals significant variation in vulnerability patterns: our attacks achieve 66.5% ASR against GPT-4, 79.5% on Llama-3 and 33.0% against Gemini 2.5 Flash, demonstrating both broad applicability and model-specific defensive strengths in cybersecurity contexts. This represents a 54x improvement over direct prompting (1.5% ASR) and demonstrates systematic vulnerabilities in current safety alignment approaches. Our analysis reveals that technical domains (Cybersecurity: 93% ASR) and deception-based attacks (Fraud: 87.8% ASR) are particularly vulnerable, highlighting threats to AI-integrated threat detection, malware analysis, and secure systems, while physical harm categories show greater resistance (55.6% ASR). We employ automated harmfulness evaluation using Claude Sonnet 4, cross-validated with human expert assessment, ensuring reliable and scalable evaluation for cybersecurity red-teaming. Finally, we analyze failure mechanisms and discuss defensive strategies to mitigate these vulnerabilities in AI for cybersecurity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全メカニズムをバイパスするためにコンテキストフレーミングを利用する高度な迅速なエンジニアリング攻撃に対して脆弱であり、サイバーセキュリティアプリケーションに重大なリスクをもたらす。
単発で物語ベースのジェイルブレイクプロンプトを自動生成する,コンパクトアタッカーモデルを訓練するための体系的手法であるJailbreak Mimicryを紹介する。
我々のアプローチは、AI駆動型セキュリティシステムにおいて、敵の迅速な発見を手動の職人技から再現可能な科学的プロセスに変換し、積極的な脆弱性評価を可能にする。
The OpenAI GPT-OSS-20B Red-Teaming Challengeのために開発され、200項目のホールトアウトテストセットでGPT-OSS-20Bに対して81.0%の攻撃成功率(ASR)を達成し、AdvBench由来のキュレートデータセットでMistral-7B上でパラメータ効率のよい微調整(LoRA)を使用する。
我々の攻撃は、GPT-4に対する66.5%のASR、Llama-3に対する79.5%、Gemini 2.5 Flashに対する33.0%を達成し、サイバーセキュリティの文脈における幅広い適用性とモデル固有の防御力の両方を示している。
これは直接的プロンプト(1.5% ASR)よりも54倍の改善であり、現在の安全アライメントアプローチにおける系統的な脆弱性を示している。
我々の分析によると、技術的ドメイン(サイバーセキュリティ:93%のASR)と詐欺ベースの攻撃(Fraud:87.8%のASR)は特に脆弱であり、AI統合された脅威検出、マルウェア分析、安全なシステムに対する脅威を強調している。
我々は,Claude Sonnet 4を用いた自動有害度評価を,人間の専門家による評価とクロスバリデーションにより適用し,サイバーセキュリティのリピートに対する信頼性とスケーラブル性を確保する。
最後に、障害メカニズムを分析し、サイバーセキュリティのためのAIにおける脆弱性を軽減するための防衛戦略について議論する。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - From Attack Descriptions to Vulnerabilities: A Sentence Transformer-Based Approach [0.39134914399411086]
本稿では,攻撃のテキスト記述から脆弱性を自動的に識別する14の文変換器について検討する。
平均して、MMPNetモデルによって特定される脆弱性の56%は、アタックと合わせてCVEリポジトリ内でも表現されている。
結果のマニュアル検査により、MITREリポジトリに記録されていない275の予測リンクの存在が明らかになった。
論文 参考訳(メタデータ) (2025-09-02T08:27:36Z) - Mind the Gap: Time-of-Check to Time-of-Use Vulnerabilities in LLM-Enabled Agents [4.303444472156151]
大規模言語モデル(LLM)対応エージェントは、広範囲のアプリケーションで急速に出現している。
本研究は,LSM対応エージェントにおけるTOCTOU(time-of-use)脆弱性に関する最初の研究である。
我々は,このタイプの脆弱性を評価するために設計された,66の現実的なユーザタスクを備えたベンチマークTOCTOU-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-23T22:41:49Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。