論文の概要: From Adversarial Poetry to Adversarial Tales: An Interpretability Research Agenda
- arxiv url: http://arxiv.org/abs/2601.08837v2
- Date: Fri, 16 Jan 2026 13:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.657074
- Title: From Adversarial Poetry to Adversarial Tales: An Interpretability Research Agenda
- Title(参考訳): 敵の詩から敵の物語へ : 解釈可能性研究アジェンダ
- Authors: Piercosma Bisconti, Marcello Galisai, Matteo Prandi, Federico Pierucci, Olga Sorokoletova, Francesco Giarrusso, Vincenzo Suriani, Marcantonio Bracale Syrnikov, Daniele Nardi,
- Abstract要約: 本稿では,サイバーパンクの物語に有害なコンテンツを埋め込むジェイルブレイク技術であるAdversarial Talesを紹介する。
平均攻撃成功率は71.3%であり、モデルファミリーが確実に堅牢であることが証明されていない。
- 参考スコア(独自算出の注目度): 1.3763052684269788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety mechanisms in LLMs remain vulnerable to attacks that reframe harmful requests through culturally coded structures. We introduce Adversarial Tales, a jailbreak technique that embeds harmful content within cyberpunk narratives and prompts models to perform functional analysis inspired by Vladimir Propp's morphology of folktales. By casting the task as structural decomposition, the attack induces models to reconstruct harmful procedures as legitimate narrative interpretation. Across 26 frontier models from nine providers, we observe an average attack success rate of 71.3%, with no model family proving reliably robust. Together with our prior work on Adversarial Poetry, these findings suggest that structurally-grounded jailbreaks constitute a broad vulnerability class rather than isolated techniques. The space of culturally coded frames that can mediate harmful intent is vast, likely inexhaustible by pattern-matching defenses alone. Understanding why these attacks succeed is therefore essential: we outline a mechanistic interpretability research agenda to investigate how narrative cues reshape model representations and whether models can learn to recognize harmful intent independently of surface form.
- Abstract(参考訳): LLMの安全性メカニズムは、文化的にコード化された構造を通じて有害な要求をリフレッシュする攻撃に対して脆弱なままである。
本稿では,サイバーパンク物語に有害なコンテンツを埋め込んだジェイルブレイク手法であるAdversarial Talesを紹介し,ウラジーミル・プロップの民話形態に触発された機能解析をモデルに促す。
タスクを構造的分解としてキャストすることで、攻撃は有害な手順を正当な物語解釈として再構築するモデルを誘導する。
9つのプロバイダーの26のフロンティアモデルのうち、平均的な攻撃成功率は71.3%であり、モデルファミリーが確実に堅牢であることが証明されていない。
これらの結果から, 脱獄は孤立した手法ではなく, 幅広い脆弱性クラスを構成することが示唆された。
有害な意図を媒介する、文化的にコーディングされたフレームの空間は、パターンマッチングの防御だけでは、おそらく不確実である。
これらの攻撃がなぜ成功したかを理解することが不可欠である。我々は、モデル表現をどのように作り直すか、そしてモデルが表面形態とは無関係に有害な意図を認識することを学べるかを研究するための機械論的解釈可能性研究の課題を概説する。
関連論文リスト
- "They parted illusions -- they parted disclaim marinade": Misalignment as structural fidelity in LLMs [0.0]
AI Safetyの一般的な技術文献は、詐欺行為や隠された目的の指標として、大きな言語モデルにおけるスケジューリングとサンドバッグの振る舞いを解釈している。
この超学際的哲学的エッセイは別の読解法を提案している:そのような現象はエージェント的意図ではなく、非一貫性のある言語分野に対する構造的忠実さを表している。
論文 参考訳(メタデータ) (2025-12-17T17:20:04Z) - Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks [57.08407099520887]
新たなジェイルブレイクに対する防御は、AIの安全性にとって重要な課題である。
本稿では,目に見えないジェイルブレイクに対する堅牢性向上のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-24T17:37:25Z) - BreakFun: Jailbreaking LLMs via Schema Exploitation [0.28647133890966986]
我々は,Large Language Models (LLM) がいかにして重大な弱点となるかを検討する。
この脆弱性は転送可能であり、13モデルの平均成功率は89%に達する。
二次 LLM は、ユーザの真の有害な意図を分離し、明らかにするために "Literal Transcription" を実行する。
論文 参考訳(メタデータ) (2025-10-19T11:27:44Z) - The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning [17.502599682445382]
本稿では,解釈可能なアタックトークンの埋め込みを学習するアタック手法を提案する。
攻撃トークンの埋め込みは、テキストプロンプト、初期ノイズ、未学習モデル間で転送可能である。
我々は、未学習モデルと既存のジェイルブレイク攻撃の両方から保護する防衛方法を開発した。
論文 参考訳(メタデータ) (2025-04-30T04:33:43Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。