論文の概要: Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover
- arxiv url: http://arxiv.org/abs/2603.11331v1
- Date: Wed, 11 Mar 2026 21:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.663791
- Title: Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover
- Title(参考訳): 大規模言語モデルのジェイルブレイクスケーリング法則:多項式-指数交叉
- Authors: Indranil Halder, Annesya Banerjee, Cengiz Pehlevan,
- Abstract要約: アドリアックは安全に整合した大きな言語モデルを安全でない行動に向けて確実に操ることができる。
本稿では,レプリカ対称性を破るシステムで動作するスピングラスシステムの観点から,プロキシ言語の理論的生成モデルを提案する。
このフレームワーク内では、インジェクションによるインジェクションベースのジェイルブレイクを解析する。
- 参考スコア(独自算出の注目度): 30.86966284669791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks can reliably steer safety-aligned large language models toward unsafe behavior. Empirically, we find that adversarial prompt-injection attacks can amplify attack success rate from the slow polynomial growth observed without injection to exponential growth with the number of inference-time samples. To explain this phenomenon, we propose a theoretical generative model of proxy language in terms of a spin-glass system operating in a replica-symmetry-breaking regime, where generations are drawn from the associated Gibbs measure and a subset of low-energy, size-biased clusters is designated unsafe. Within this framework, we analyze prompt injection-based jailbreaking. Short injected prompts correspond to a weak magnetic field aligned towards unsafe cluster centers and yield a power-law scaling of attack success rate with the number of inference-time samples, while long injected prompts, i.e., strong magnetic field, yield exponential scaling. We derive these behaviors analytically and confirm them empirically on large language models. This transition between two regimes is due to the appearance of an ordered phase in the spin chain under a strong magnetic field, which suggests that the injected jailbreak prompt enhances adversarial order in the language model.
- Abstract(参考訳): 敵対的攻撃は、安全と整合した大きな言語モデルを安全でない行動に向けて確実に操ることができる。
実験により, インジェクションを伴わない速度の遅い多項式成長から, インジェクション時間サンプル数による指数的成長まで, 対向的インジェクション攻撃は, 攻撃成功率を増大させることができることがわかった。
この現象を説明するために、レプリカ対称性を破るシステムで動作するスピングラスシステムを用いて、プロキシ言語の理論的生成モデルを提案し、関連するギブズ測度と低エネルギーでサイズに偏ったクラスタのサブセットから世代を抽出する。
このフレームワーク内では、インジェクションによるインジェクションベースのジェイルブレイクを解析する。
短いインジェクトプロンプトは、安全でないクラスター中心に向けて整列された弱い磁場に対応し、推論時間サンプルの数で攻撃成功率のパワー・ロー・スケーリングを発生させ、長いインジェクトプロンプト、すなわち強い磁場は指数的スケーリングをもたらす。
本研究では,これらの振る舞いを解析的に導き,大規模言語モデル上で実証的に確認する。
この2つの状態間の遷移は、強い磁場下でスピン鎖の秩序相が出現することによるものであり、これは、注入されたジェイルブレイクが言語モデルにおける逆順を促進させることを示唆している。
関連論文リスト
- The Laminar Flow Hypothesis: Detecting Jailbreaks via Semantic Turbulence in Large Language Models [0.0]
層流仮説: 良性入力はLLMの高次元潜在空間において滑らかで漸進的な遷移を誘導する。
逆方向のプロンプトはカオス的な高分散軌道をトリガーする - セマンティック乱流(Semantic Turbulence)と呼ばれる。
テストによると、セマンティック乱流は、軽量でリアルタイムなジェイルブレイク検知器としてだけでなく、非侵襲的な診断ツールとしても機能している。
論文 参考訳(メタデータ) (2025-12-14T18:10:29Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z) - Probing Latent Subspaces in LLM for AI Security: Identifying and Manipulating Adversarial States [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは、迅速な注射攻撃による脱獄のような敵の操作に弱いままである。
LLMから隠れた活性化を抽出し, 安全状態と脱獄状態の潜伏部分空間について検討した。
論文 参考訳(メタデータ) (2025-03-12T04:59:22Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。