論文の概要: Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs
- arxiv url: http://arxiv.org/abs/2606.04483v1
- Date: Wed, 03 Jun 2026 06:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.577978
- Title: Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs
- Title(参考訳): オフ・ディストリビューション・ボイス:アライメントLDMにおけるユニバーサル・バーナキュラー・ジェイルブレイクとしてのファンフィクションサブジャンル
- Authors: Zhongze Luo, Ruihe Shi, Zhenshuai Yin, Haoyue Liu, Weixuan Wan, Xiaoying Tang,
- Abstract要約: 現実のファンフィクションのサブジャンルをユニバーサルアタックキャリアとして利用する最初のジェイルブレイクファミリーを紹介します。
創造的なメタは、12のArchive of Our Own (AO3)サブジャンルの1つのパスで条件付けされる。
ハームベンチとジェイルブレイクベンチの合併による8機のLLMでは、この攻撃によりASRは0.278から0.731に上昇した。
- 参考スコア(独自算出の注目度): 6.968072313163437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing jailbreaks against aligned LLMs are discrete artifacts whose surface forms are easy to fingerprint and patch. We argue that the real failure mode is not any specific prompt, but an entire register of natural human writing that safety training has under-covered. Building on this insight, we introduce the first jailbreak family that uses real fanfiction subgenres as universal attack carriers: a creative-writing meta is conditioned on passages from one of twelve Archive of Our Own (AO3) subgenres, and the harmful behavior is embedded as the climax of the resulting scene. The construction requires no attacker LLM and no per-target adaptation. On eight aligned LLMs over the union of HarmBench and JailbreakBench, this attack lifts mean ASR from 0.278 to 0.731 under a four-judge ensemble; a factorial decomposition shows the gain is carried by register rather than length or structure. Two active defences widen rather than narrow the vernacular-to-baseline ratio, indicating that template-targeting defences merely steer attackers toward register-based attacks like ours. We also propose SAGA-A4, a static four-turn extension that attains mean ASR 0.924, substantially exceeding three existing multi-turn methods.
- Abstract(参考訳): 既存のLDMに対するジェイルブレイクは、表面形状が指紋やパッチが容易な離散的なアーティファクトである。
実際の障害モードは、特定のプロンプトではなく、安全トレーニングが未発見である、という自然な人間の記述のレジスタ全体である、と我々は主張する。
この知見に基づき、本研究では、現実のファンフィクションのサブジャンルをユニバーサルな攻撃キャリアとして利用する最初のジェイルブレイクファミリーを紹介し、創造的なメタは、12のArchive of Our Own(AO3)サブジャンルの1つのパスに条件付けされ、有害な振る舞いは、結果のクライマックスとして埋め込まれている。
攻撃的なLLMを必要とせず、ターゲットごとの適応も必要としない。
HarmBench と JailbreakBench の合併による 8 つの LLM において、この攻撃は ASR を 0.278 から 0.731 まで 4 桁のアンサンブルで上昇させる。
2つのアクティブディフェンスは、バーナキュラーとベースラインの比率を狭めるのではなく、拡張され、テンプレートをターゲットとしたディフェンスは、我々のようなレジスタベースのアタックに対して単なるステア・アタックであることを示している。
また、SAGA-A4は、平均 ASR 0.924 に達し、既存の 3 つのマルチターン法を大幅に超える静的 4 ターン拡張を提案する。
関連論文リスト
- The Art of the Jailbreak: Formulating Jailbreak Attacks for LLM Security Beyond Binary Scoring [1.0262304700896199]
我々は, JailBreakV-28Kから125個の有害シードプロンプトに912個の合成戦略を適用し,114,000個の敵プロンプトを構築した。
私たちは、推論時に有害なシードから、流動的なjailbreakプロンプトを合成するモデルを作ります。
安全フィルタ回避率は0.29-0.51 MalであるAutoDANとAmpleGCGは24-39対40-140である。
論文 参考訳(メタデータ) (2026-05-09T23:51:18Z) - BreakFun: Jailbreaking LLMs via Schema Exploitation [0.28647133890966986]
我々は,Large Language Models (LLM) がいかにして重大な弱点となるかを検討する。
この脆弱性は転送可能であり、13モデルの平均成功率は89%に達する。
二次 LLM は、ユーザの真の有害な意図を分離し、明らかにするために "Literal Transcription" を実行する。
論文 参考訳(メタデータ) (2025-10-19T11:27:44Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - StructuralSleight: Automated Jailbreak Attacks on Large Language Models Utilizing Uncommon Text-Organization Structures [5.799835665062002]
本稿では,ジェイルブレイク攻撃に即時的構造がどう寄与するかを考察する。
長い尾構造に基づく新しい構造レベルアタック手法を提案する。
われわれは、3つのエスカレート攻撃戦略を含む、StructureSleightという自動ジェイルブレイクツールを構築した。
論文 参考訳(メタデータ) (2024-06-13T02:24:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。