論文の概要: TEMPLATEFUZZ: Fine-Grained Chat Template Fuzzing for Jailbreaking and Red Teaming LLMs
- arxiv url: http://arxiv.org/abs/2604.12232v1
- Date: Tue, 14 Apr 2026 03:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.214193
- Title: TEMPLATEFUZZ: Fine-Grained Chat Template Fuzzing for Jailbreaking and Red Teaming LLMs
- Title(参考訳): TEMPLATEFUZZ: JailbreakとRed Teaming LLMのためのファイングレードチャットテンプレートファジング
- Authors: Qingchao Shen, Zibo Xiao, Lili Huang, Enwei Hu, Yongqiang Tian, Junjie Chen,
- Abstract要約: 大きな言語モデル(LLM)は、さまざまなドメインにまたがるデプロイが増えているが、Jailbreak攻撃に対する脆弱性は、重大なセキュリティリスクを引き起こす。
本稿では,チャットテンプレートの脆弱性を体系的に公開するファジィフレームワークであるFUZZを紹介する。
- 参考スコア(独自算出の注目度): 9.50424979744786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed across diverse domains, yet their vulnerability to jailbreak attacks, where adversarial inputs bypass safety mechanisms to elicit harmful outputs, poses significant security risks. While prior work has primarily focused on prompt injection attacks, these approaches often require resource-intensive prompt engineering and overlook other critical components, such as chat templates. This paper introduces TEMPLATEFUZZ, a fine-grained fuzzing framework that systematically exposes vulnerabilities in chat templates, a critical yet underexplored attack surface in LLMs. Specifically, TEMPLATEFUZZ (1) designs a series of element-level mutation rules to generate diverse chat template variants, (2) proposes a heuristic search strategy to guide the chat template generation toward the direction of amplifying the attack success rate (ASR) while preserving model accuracy, and (3) integrates an active learning-based strategy to derive a lightweight rule-based oracle for accurate and efficient jailbreak evaluation. Evaluated on twelve open-source LLMs across multiple attack scenarios, TEMPLATEFUZZ achieves an average ASR of 98.2% with only 1.1% accuracy degradation, outperforming state-of-the-art methods by 9.1%-47.9% in ASR and 8.4% in accuracy degradation. Moreover, even on five industry-leading commercial LLMs where chat templates cannot be specified, TEMPLATEFUZZ attains a 90% average ASR via chat template-based prompt injection attacks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、さまざまなドメインにまたがるデプロイが増えているが、Jailbreak攻撃に対する脆弱性は、有害なアウトプットを引き出すための安全メカニズムを回避し、重大なセキュリティリスクを生じさせる。
以前の作業は主にインジェクション攻撃に重点を置いていたが、これらのアプローチはリソース集約的なプロンプトエンジニアリングを必要とし、チャットテンプレートのような他の重要なコンポーネントを見落としていることが多い。
本稿では、チャットテンプレートの脆弱性を体系的に公開する、きめ細かなファジィフレームワークであるTEMPLATEFUZ(TEMPLATEFUZ)を紹介する。
具体的には、TEMPLATEFUZ (1) は、様々なチャットテンプレートの変種を生成するための要素レベル変異ルールを設計し、(2) モデル精度を維持しながら、攻撃成功率(ASR)を増幅する方向にチャットテンプレート生成を誘導するヒューリスティックな探索戦略を提案し、(3) より軽量で効率的なジェイルブレイク評価のためのルールベースのオラクルを導出するためのアクティブラーニングベースの戦略を統合する。
TEMPLATEFUZは、複数の攻撃シナリオにわたる12のオープンソースLLMで評価され、平均的なASRは98.2%、精度はわずか1.1%、最先端の手法は9.1%-47.9%、精度は8.4%である。
さらに、チャットテンプレートを指定できない業界主導の商用LLMでは、TEMPLATEFUZはチャットテンプレートベースのプロンプトインジェクション攻撃によって平均90%のASRを達成する。
関連論文リスト
- The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems [25.286238948800033]
大規模言語モデル(LLM)は、脱獄による重大なセキュリティリスクに直面している。
我々は、アライメント閾値を個別に回避する多数の低リスク入力を連鎖して動作するtextitSalami Slicing Riskを提案する。
本研究は,多ターンジェイルブレイクの広汎なリスクに対する批判的な洞察を与え,行動可能な緩和戦略を提供する。
論文 参考訳(メタデータ) (2026-04-13T11:12:30Z) - Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations [0.0]
MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、敵の攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象として,マルチモーダルジェイルブレイクの体系的研究を行う。
評価は3つのハイリスク安全性カテゴリで1,900件の対人プロンプトにまたがる。
論文 参考訳(メタデータ) (2025-10-23T05:16:33Z) - An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI [24.312198733476063]
オープンソースのサイバー脅威インテリジェンス(OS-CTI)は、脅威ハンターにとって貴重な資源である。
OSCTI分析の自動化を目的とした以前の研究は、実行可能な出力を提供できなかった。
我々は,OSCTIデータからジェネリック署名検出規則候補を自動的に生成する新しいフレームワーク LLMCloudHunter を提案する。
論文 参考訳(メタデータ) (2024-07-06T21:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。