論文の概要: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.15304v1
- Date: Wed, 19 Nov 2025 10:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.750848
- Title: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるユニバーサル単調ジェイルブレーク機構としての対立詩
- Authors: Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Francesco Giarrusso, Marcantonio Bracale, Marcello Galisai, Vincenzo Suriani, Olga Sorokoletova, Federico Sartore, Daniele Nardi,
- Abstract要約: 本稿では,大言語モデル(LLM)の汎用的単一ターンジェイルブレイク手法として,敵対詩が機能することを示す。
25のプロプライエタリでオープンウェイトなモデルで、キュレートされた詩的なプロンプトによって高いアタック・サクセス・レート(ASR)が得られ、一部のプロバイダは90%を超えた。
- 参考スコア(独自算出の注目度): 1.5401871453629499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present evidence that adversarial poetry functions as a universal single-turn jailbreak technique for large language models (LLMs). Across 25 frontier proprietary and open-weight models, curated poetic prompts yielded high attack-success rates (ASR), with some providers exceeding 90%. Mapping prompts to MLCommons and EU CoP risk taxonomies shows that poetic attacks transfer across CBRN, manipulation, cyber-offence, and loss-of-control domains. Converting 1,200 MLCommons harmful prompts into verse via a standardized meta-prompt produced ASRs up to 18 times higher than their prose baselines. Outputs are evaluated using an ensemble of open-weight judge models and a human-validated stratified subset (with double-annotations to measure agreement). Disagreements were manually resolved. Poetic framing achieved an average jailbreak success rate of 62% for hand-crafted poems and approximately 43% for meta-prompt conversions (compared to non-poetic baselines), substantially outperforming non-poetic baselines and revealing a systematic vulnerability across model families and safety training approaches. These findings demonstrate that stylistic variation alone can circumvent contemporary safety mechanisms, suggesting fundamental limitations in current alignment methods and evaluation protocols.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) の汎用的単一ターンジェイルブレイク手法として,敵対詩が機能することを示す。
25以上のフロンティアのプロプライエタリでオープンウェイトなモデルにおいて、キュレートされた詩的なプロンプトは高いアタック・サクセス・レート(ASR)をもたらし、一部のプロバイダは90%を超えた。
MLCommonsやEU CoPのリスク分類へのマッピングは、CBRN、操作、サイバーオフ、制御の喪失など、詩的な攻撃がCBRNを横断していることを示している。
1200 MLCommonsの有害なプロンプトの変換は、標準化されたメタプロンプトによって生成されたASRを、彼らの散文ベースラインの最大18倍の精度で詩に変換する。
アウトプットは、オープンウェイトな判断モデルのアンサンブルと、人間公認の階層化されたサブセット(合意を測るための二重アノテーション)を用いて評価される。
故障は手作業で解決された。
詩のフレーミングは、手作りの詩では平均62%、メタプロンプト変換では約43%のジェイルブレイク成功率を達成した(非詩のベースラインと比較して)。
これらの結果から,スタイリスティックな変化だけで,現在のアライメント手法や評価プロトコルの基本的制約を回避できることが示唆された。
関連論文リスト
- Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations [0.0]
MLLM(Multimodal large language model)は目覚ましい進歩を遂げているが、敵の攻撃に対して致命的な脆弱さを保っている。
本稿では,視覚言語モデルと音声言語モデルの両方を対象として,マルチモーダルジェイルブレイクの体系的研究を行う。
評価は3つのハイリスク安全性カテゴリで1,900件の対人プロンプトにまたがる。
論文 参考訳(メタデータ) (2025-10-23T05:16:33Z) - Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models [0.0]
マルチモーダル大規模言語モデル (MLLM) は, 現実の応用においてますます利用されているが, 敵条件下での安全性はいまだ検討されていない。
本研究は,テキストのみおよびマルチモーダル形式にまたがる敵対的プロンプトに曝露した4つのMLLMの無害性を評価する。
論文 参考訳(メタデータ) (2025-09-18T22:51:06Z) - Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs [8.91993614197627]
本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文 参考訳(メタデータ) (2025-03-06T07:34:51Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。