論文の概要: Say It Differently: Linguistic Styles as Jailbreak Vectors
- arxiv url: http://arxiv.org/abs/2511.10519v1
- Date: Fri, 14 Nov 2025 01:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.907728
- Title: Say It Differently: Linguistic Styles as Jailbreak Vectors
- Title(参考訳): ジェイルブレイクベクターとしての言語スタイル
- Authors: Srikant Panda, Avinash Rai,
- Abstract要約: 我々は、恐怖や好奇心などの言語スタイルが有害な意図を再構築し、整列モデルから安全でない反応を誘発する方法について研究する。
3つの標準データセットからのプロンプトを11の異なる言語スタイルに変換することで、スタイル拡張されたjailbreakベンチマークを構築する。
恐怖、好奇心、慈悲心といったスタイルは最も効果的で、文脈化された書き直しはテンプレート化されたバリエーションよりも優れている。
- 参考スコア(独自算出の注目度): 0.763334557068953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are commonly evaluated for robustness against paraphrased or semantically equivalent jailbreak prompts, yet little attention has been paid to linguistic variation as an attack surface. In this work, we systematically study how linguistic styles such as fear or curiosity can reframe harmful intent and elicit unsafe responses from aligned models. We construct style-augmented jailbreak benchmark by transforming prompts from 3 standard datasets into 11 distinct linguistic styles using handcrafted templates and LLM-based rewrites, while preserving semantic intent. Evaluating 16 open- and close-source instruction-tuned models, we find that stylistic reframing increases jailbreak success rates by up to +57 percentage points. Styles such as fearful, curious and compassionate are most effective and contextualized rewrites outperform templated variants. To mitigate this, we introduce a style neutralization preprocessing step using a secondary LLM to strip manipulative stylistic cues from user inputs, significantly reducing jailbreak success rates. Our findings reveal a systemic and scaling-resistant vulnerability overlooked in current safety pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言い換えまたは意味論的に等価なジェイルブレイクプロンプトに対する堅牢性に対して一般的に評価されるが、攻撃面としての言語的変化にはほとんど注意が払われていない。
本研究では,恐怖や好奇心などの言語スタイルが有害な意図を再構築し,協調モデルから安全でない反応を誘発する方法について,体系的に研究する。
我々は、3つの標準データセットからのプロンプトを手書きテンプレートとLLMベースの書き直しを使用して11の異なる言語スタイルに変換することで、スタイル拡張されたjailbreakベンチマークを構築し、セマンティックな意図を維持した。
16のオープンおよびクローズソースの命令チューニングモデルを評価すると、スタイリスティックなリフレーミングはジェイルブレイクの成功率を最大57ポイント向上させることがわかった。
恐怖、好奇心、慈悲心といったスタイルは最も効果的で、文脈化された書き直しはテンプレート化されたバリエーションよりも優れている。
これを軽減するため,第2のLCMを用いたスタイル中和前処理により,ユーザ入力から操作型スタイリスティックキューを除去し,ジェイルブレイクの成功率を大幅に低減する。
以上の結果から,現在の安全パイプラインで見落とされた全身的かつスケーリングに抵抗する脆弱性が判明した。
関連論文リスト
- Imperceptible Jailbreaking against Large Language Models [107.76039200173528]
変分セレクタと呼ばれるUnicode文字のクラスを利用する非受容ジェイルブレイクを導入する。
目に見えない変分セレクタを悪意のある質問に追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同じように見える。
本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:03:50Z) - When Style Breaks Safety: Defending LLMs Against Superficial Style Alignment [21.638179430757116]
大きな言語モデル(LLM)は、悪意のあるクエリを含む特定のスタイルでトリガーすることができる。
オリジナルのクエリにおけるスタイルパターンの影響は、悪意のある意図とは意味的に無関係である。
そこで本研究では,少数の安全訓練データを組み込んだ防衛戦略であるSafeStyleを提案する。
論文 参考訳(メタデータ) (2025-06-09T05:57:39Z) - "Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs [1.2891210250935148]
我々は,テキストおよび画像生成タスクにおいて,コードミキシングと音声の摂動をジェイルブレイクLLMに活用する新しい戦略を導入する。
本研究では,LLMにおける安全性フィルタを効果的に回避する手法を提案する。
我々の解釈可能性実験は、音声による摂動が単語のトークン化に影響を与え、ジェイルブレイクが成功することを示した。
論文 参考訳(メタデータ) (2025-05-20T11:35:25Z) - CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-02-17T02:49:26Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output
Robustness of Large Language Models [28.37026309925163]
大きな言語モデル(LLM)は人間の値と一致し、安全なテキストを生成するように設計されている。
以前のJailbreaking LLMのベンチマークでは、主にモデルの安全性の評価に焦点が当てられていた。
本稿では,LLMの安全性とロバスト性を両立させ,バランスの取れたアプローチの必要性を強調した。
論文 参考訳(メタデータ) (2023-07-17T13:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。