論文の概要: The Laminar Flow Hypothesis: Detecting Jailbreaks via Semantic Turbulence in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.13741v1
- Date: Sun, 14 Dec 2025 18:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.415917
- Title: The Laminar Flow Hypothesis: Detecting Jailbreaks via Semantic Turbulence in Large Language Models
- Title(参考訳): 層流仮説:大規模言語モデルにおける意味的乱流によるジェイルブレイクの検出
- Authors: Md. Hasib Ur Rahman,
- Abstract要約: 層流仮説: 良性入力はLLMの高次元潜在空間において滑らかで漸進的な遷移を誘導する。
逆方向のプロンプトはカオス的な高分散軌道をトリガーする - セマンティック乱流(Semantic Turbulence)と呼ばれる。
テストによると、セマンティック乱流は、軽量でリアルタイムなジェイルブレイク検知器としてだけでなく、非侵襲的な診断ツールとしても機能している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) become ubiquitous, the challenge of securing them against adversarial "jailbreaking" attacks has intensified. Current defense strategies often rely on computationally expensive external classifiers or brittle lexical filters, overlooking the intrinsic dynamics of the model's reasoning process. In this work, the Laminar Flow Hypothesis is introduced, which posits that benign inputs induce smooth, gradual transitions in an LLM's high-dimensional latent space, whereas adversarial prompts trigger chaotic, high-variance trajectories - termed Semantic Turbulence - resulting from the internal conflict between safety alignment and instruction-following objectives. This phenomenon is formalized through a novel, zero-shot metric: the variance of layer-wise cosine velocity. Experimental evaluation across diverse small language models reveals a striking diagnostic capability. The RLHF-aligned Qwen2-1.5B exhibits a statistically significant 75.4% increase in turbulence under attack (p less than 0.001), validating the hypothesis of internal conflict. Conversely, Gemma-2B displays a 22.0% decrease in turbulence, characterizing a distinct, low-entropy "reflex-based" refusal mechanism. These findings demonstrate that Semantic Turbulence serves not only as a lightweight, real-time jailbreak detector but also as a non-invasive diagnostic tool for categorizing the underlying safety architecture of black-box models.
- Abstract(参考訳): 大規模言語モデル(LLM)がユビキタス化するにつれ、敵の「ジェイルブレイク」攻撃に対してそれらを保護するという課題が強まっている。
現在の防衛戦略は、しばしば計算に高価な外部分類器や脆い語彙フィルタに頼り、モデルの推論過程の本質的なダイナミクスを見下ろしている。
この研究では、LLMの高次元潜在空間において、良性入力が滑らかで漸進的な遷移を誘導するのに対し、対向的なプロンプトはカオス的、高分散な軌道(セマンティック乱流(Semantic Turbulence)と呼ばれる)を誘導する。
この現象は、新しいゼロショット計量によって定式化され、層状コサイン速度の分散である。
様々な小言語モデルに対する実験的評価は、顕著な診断能力を示す。
RLHF系Qwen2-1.5Bは、攻撃中の乱流の統計的に有意な75.4%増加(pは0.001未満)を示し、内部衝突の仮説を検証している。
逆に、Gemma-2Bは22.0%の乱流減少を示し、異なる低エントロピーの「反射に基づく」拒絶機構を特徴付ける。
これらの結果は、セマンティック乱流が、軽量でリアルタイムなジェイルブレイク検知器として機能するだけでなく、ブラックボックスモデルの基盤となる安全性アーキテクチャを分類するための非侵襲的診断ツールとしても機能することを示している。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。