論文の概要: Metaphor Is Not All Attention Needs
- arxiv url: http://arxiv.org/abs/2605.12128v1
- Date: Tue, 12 May 2026 13:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.888691
- Title: Metaphor Is Not All Attention Needs
- Title(参考訳): Metaphorは、すべての注意が必要なわけではない
- Authors: Olga Sorokoletova, Francesco Giarrusso, Giacomo De Luca, Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Marcello Galisai, Vincenzo Suriani, Daniele Nardi,
- Abstract要約: 大規模な言語モデルは、有害な命令に抵抗する能力が不可欠である安全クリティカルなアプリケーションにますますデプロイされている。
近年のエビデンスでは、詩的な変換のようなスタイル的な改革は、いまだに警告効果のある安全メカニズムを回避可能であることが示されている。
それらの効果は、特定の詩的装置、文学的フォーマットの認識に失敗したこと、あるいはモデルがどのようにスタイリスティックに不規則なプロンプトを処理したかに左右されるかを検討する。
- 参考スコア(独自算出の注目度): 1.3763052684269788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed in safety-critical applications, where their ability to resist harmful instructions is essential. Although post-training aims to make models robust against many jailbreak strategies, recent evidence shows that stylistic reformulations, such as poetic transformation, can still bypass safety mechanisms with alarming effectiveness. This raises a central question: why do literary jailbreaks succeed? In this work, we investigate whether their effectiveness depends on specific poetic devices, on a failure to recognize literary formatting, or on deeper changes in how models process stylistically irregular prompts. We address this problem through an interpretability analysis of attention patterns. We perform input-level ablation studies to assess the contribution of individual and combinations of poetic devices; construct an interpretable vector representation of attention maps; cluster these representations and train linear probes to predict safety outcomes and literary format. Our results show that models distinguish poetic from prose formats with high accuracy, yet struggle to predict jailbreak success within each format. Clustering further reveals clear separation by literary format, but not by safety label. These findings indicate that jailbreak success is not caused by a failure to recognize poetic formatting; rather, poetic prompts induce distinct processing patterns that remain largely independent of harmful-content detection. Overall, literary jailbreaks appear to misalign large language models not through any single poetic device, but through accumulated stylistic irregularities that alter prompt processing and avoid lexical triggers considered during post-training. This suggests that robustness requires safety mechanisms that account for style-induced shifts in model behavior. We use Qwen3-14B as a representative open-weight case study.
- Abstract(参考訳): 大規模な言語モデルは、有害な命令に抵抗する能力が不可欠である安全クリティカルなアプリケーションにますますデプロイされている。
ポストトレーニングは、多くのジェイルブレイク戦略に対してモデルを堅牢にすることを目的としているが、最近の証拠は、詩的な変換のようなスタイル的な改革が、アラーム効果のある安全メカニズムを回避できることを示している。
なぜ文学的ジェイルブレイクが成功するのか?
本研究では,その効果が特定の詩的装置に依存しているか,文学的フォーマットの認識に失敗したか,あるいはモデルがどのようにスタイリスティックに不規則なプロンプトを処理しているのかについて検討する。
本稿では,注意パターンの解釈可能性分析を通じてこの問題に対処する。
入力レベルのアブレーション研究を行い、詩的装置の個々の寄与と組み合わせを評価し、注意マップの解釈可能なベクトル表現を構築し、これらの表現をクラスタ化し、安全結果と文学的形式を予測するために線形プローブを訓練する。
以上の結果から, 散文形式と散文形式を高い精度で区別するが, それぞれの形式におけるジェイルブレイクの成功を予測するのに苦慮していることがわかった。
クラスタリングはさらに、文学的な形式による明確な分離を明らかにしているが、安全ラベルによるものではない。
これらの結果は、ジェイルブレイクの成功は、詩的なフォーマッティングを認識できないことによるものではなく、むしろ、詩的なプロンプトは有害なコンテンツ検出に大きく依存しない、異なる処理パターンを誘導することを示している。
全体として、文学的ジェイルブレイクは、単一の詩的な装置を通してではなく、処理を迅速に変更し、ポストトレーニング中に考慮された語彙的トリガーを避けるための、蓄積されたスタイル上の不規則を通して、大きな言語モデルを誤認しているように見える。
このことは、ロバスト性はモデル行動のスタイルによるシフトを考慮に入れた安全メカニズムを必要とすることを示唆している。
我々はQwen3-14Bを代表的オープンウェイトケーススタディとして使用している。
関連論文リスト
- Learning the Cue or Learning the Word? Analyzing Generalization in Metaphor Detection for Verbs [54.86138668387175]
我々は、多くの最先端システムの共有バックボーンであるRoBERTaを用いてメタファ検出を解析し、英語の動詞に着目した。
本稿では,選択された目標レムマのすべてのインスタンスを微調整から厳格に除外する,制御された語彙ホールドアウト設定を導入し,これらのヘルドアウトレムマの露光レムマに対する予測を比較した。
モデルはExpposed lemmasで最高のパフォーマンスを発揮するが、Held-out lemmasでは堅牢なパフォーマンスを維持している。
論文 参考訳(メタデータ) (2026-04-15T10:48:09Z) - "They parted illusions -- they parted disclaim marinade": Misalignment as structural fidelity in LLMs [0.0]
AI Safetyの一般的な技術文献は、詐欺行為や隠された目的の指標として、大きな言語モデルにおけるスケジューリングとサンドバッグの振る舞いを解釈している。
この超学際的哲学的エッセイは別の読解法を提案している:そのような現象はエージェント的意図ではなく、非一貫性のある言語分野に対する構造的忠実さを表している。
論文 参考訳(メタデータ) (2025-12-17T17:20:04Z) - From Adversarial Poetry to Adversarial Tales: An Interpretability Research Agenda [1.3763052684269788]
本稿では,サイバーパンクの物語に有害なコンテンツを埋め込むジェイルブレイク技術であるAdversarial Talesを紹介する。
平均攻撃成功率は71.3%であり、モデルファミリーが確実に堅牢であることが証明されていない。
論文 参考訳(メタデータ) (2025-12-16T14:55:58Z) - Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models [1.5401871453629499]
本稿では,Large Language Models (LLMs) の汎用的単一ターンジェイルブレイク手法として,敵対詩が機能することを示す。
25のプロプライエタリでオープンウェイトなモデルで、キュレートされた詩的なプロンプトによって高いアタック・サクセス・レート(ASR)が得られ、一部のプロバイダは90%を超えた。
論文 参考訳(メタデータ) (2025-11-19T10:14:08Z) - Say It Differently: Linguistic Styles as Jailbreak Vectors [0.763334557068953]
我々は、恐怖や好奇心などの言語スタイルが有害な意図を再構築し、整列モデルから安全でない反応を誘発する方法について研究する。
3つの標準データセットからのプロンプトを11の異なる言語スタイルに変換することで、スタイル拡張されたjailbreakベンチマークを構築する。
恐怖、好奇心、慈悲心といったスタイルは最も効果的で、文脈化された書き直しはテンプレート化されたバリエーションよりも優れている。
論文 参考訳(メタデータ) (2025-11-13T17:24:38Z) - PoemTale Diffusion: Minimising Information Loss in Poem to Image Generation with Multi-Stage Prompt Refinement [18.293592213622183]
PoemTale Diffusionは、詩的なテキストから画像への変換で失われる情報を最小化することを目的としている。
これを支援するため,既存の拡散モデルに適用し,自己認識機構を改良する。
詩の分野の研究を促進するために,1111詩からなるP4Iデータセットを紹介する。
論文 参考訳(メタデータ) (2025-07-18T07:33:08Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。