論文の概要: The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams
- arxiv url: http://arxiv.org/abs/2603.27412v1
- Date: Sat, 28 Mar 2026 21:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.9445
- Title: The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams
- Title(参考訳): 有害物体の幾何学:LLM残留流における角偏差による無訓練異常検出
- Authors: Isaac Llorente-Saguer,
- Abstract要約: 本研究では,大規模言語モデルにおける残差ストリームアクティベーションの幾何を分析し,有害なプロンプトを検出するためのトレーニング不要な方法であるLatentBiopsyを提案する。
我々はQwen3.5-0.8BファミリーとQwen2.5-0.5Bファミリーの2つの完全モデル三重項を評価した。
latentBiopsyは、有害なvs-ノルミティブ検出のためのAUROC$geq$0.937と、良性攻撃的プロンプトから有害なプロンプトを識別するためのAUROC = 1.000を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LatentBiopsy, a training-free method for detecting harmful prompts by analysing the geometry of residual-stream activations in large language models. Given 200 safe normative prompts, LatentBiopsy computes the leading principal component of their activations at a target layer and characterises new prompts by their radial deviation angle $θ$ from this reference direction. The anomaly score is the negative log-likelihood of $θ$ under a Gaussian fit to the normative distribution, flagging deviations symmetrically regardless of orientation. No harmful examples are required for training. We evaluate two complete model triplets from the Qwen3.5-0.8B and Qwen2.5-0.5B families: base, instruction-tuned, and \emph{abliterated} (refusal direction surgically removed via orthogonalisation). Across all six variants, LatentBiopsy achieves AUROC $\geq$0.937 for harmful-vs-normative detection and AUROC = 1.000 for discriminating harmful from benign-aggressive prompts (XSTest), with sub-millisecond per-query overhead. Three empirical findings emerge. First, geometry survives refusal ablation: both abliterated variants achieve AUROC at most 0.015 below their instruction-tuned counterparts, establishing a geometric dissociation between harmful-intent representation and the downstream generative refusal mechanism. Second, harmful prompts exhibit a near-degenerate angular distribution ($σ_θ\approx 0.03$ rad), an order of magnitude tighter than the normative distribution ($σ_θ\approx 0.27$ rad), preserved across all alignment stages including abliteration. Third, the two families exhibit opposite ring orientations at the same depth: harmful prompts occupy the outer ring in Qwen3.5-0.8B but the inner ring in Qwen2.5-0.5B, directly motivating the direction-agnostic scoring rule.
- Abstract(参考訳): 本研究では,大規模言語モデルにおける残差ストリームアクティベーションの幾何を分析し,有害なプロンプトを検出するためのトレーニング不要な方法であるLatentBiopsyを提案する。
200の安全な規範的プロンプトが与えられた後、LatntBiopsyはターゲット層でのアクティベーションの主成分を計算し、この基準方向からの半径偏差角$θ$で新しいプロンプトを特徴付ける。
異常スコアは、正規分布に適合するガウス分布の下で$θ$の負の対数類似度であり、向きに関係なく対称に偏差をフラグする。
トレーニングには有害な例は必要ない。
本研究では,Qwen3.5-0.8B群とQwen2.5-0.5B群(ベース,インストラクション調整,およびemph{abliterated})の2種類の完全モデル三重項について検討した。
latentBiopsyは、有害なvs-normativeな検出のためにAUROC $\geq$0.937を、良性攻撃的プロンプト(XSTest)から有害な攻撃的プロンプトを識別するためにAUROC = 1.000を達成している。
3つの経験的発見が現れる。
まず、幾何は拒絶のアブレーションを生き残る: 両方の失活した変種は、命令で調整された変種より0.015以下でAUROCを達成し、有害なインテント表現と下流の生成的拒絶機構の間の幾何学的解離を確立する。
第二に、有害なプロンプトはほぼ縮退した角分布(σ_θ\approx 0.03$ rad)を示すが、これは標準分布(σ_θ\approx 0.27$ rad)よりも厳密であり、収差を含む全てのアライメント段階で保存される。
有害なプロンプトはQwen3.5-0.8Bの外側の環を占有するが、Qwen2.5-0.5Bの内側の環は方向に依存しないスコアリングを直接動機付ける。
関連論文リスト
- SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization [3.5109108807229403]
本稿では,Ben-David らによる$HH$-divergence 境界によるドメイン適応フレームワーク SA-CycleGAN-2.5D を提案する。
2D効率と3D一貫性をブリッジすることで,腫瘍の病態を保ったボクセルレベルの高調波画像が得られる。
論文 参考訳(メタデータ) (2026-03-17T23:49:46Z) - Not Just How Much, But Where: Decomposing Epistemic Uncertainty into Per-Class Contributions [1.2891210250935148]
安全クリティカルな分類では、失敗のコストはしばしば非対称である。
MI をクラスごとのベクトル $C_k(x)=_k2/ (2_k)$, $_k=mathbbE[p_k]$ と $_k2=mathrmVar[p_k]$ に分解する。
論文 参考訳(メタデータ) (2026-02-24T18:05:51Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Late-Stage Generalization Collapse in Grokking: Detecting anti-grokking with Weightwatcher [1.6615337656760856]
ニューラルネットワークにおけるemphMemorizationは、正確な運用定義が欠如しており、しばしばグラッキングレジームから推測される。
我々は、このトレーニング体制において、未報告の第3段階である、エンファンティ・グロッキング(emphanti-grokking)、すなわち、一般化の後期崩壊を識別する。
論文 参考訳(メタデータ) (2026-02-02T22:09:14Z) - Grokking and Generalization Collapse: Insights from \texttt{HTSR} theory [4.371245698184159]
MNISTの1kサンプルサブセットをトレーニングした3層構造を用いて,ニューラルネットワーク(NN)のグルーキング現象について検討した。
我々は、訓練の非常に遅くに起こる新しい第3段階(エンファンティ・グロッキング)を発見し、よく知られたエンファンティ・グロキングフェーズとは異なる。
論文 参考訳(メタデータ) (2025-06-04T20:34:37Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。