論文の概要: Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations
- arxiv url: http://arxiv.org/abs/2605.28553v1
- Date: Wed, 27 May 2026 14:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.125787
- Title: Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations
- Title(参考訳): 復号前のリフレクション:中間LDM活性化におけるリフェール信号の検出と爆発
- Authors: Matteo Gioele Collu, Riccardo Conte, Alberto Giaretta, Denis Kleyko, Mauro Conti, Matteo Zavatteri, Roberto Confalonieri,
- Abstract要約: その結果, 出力発生前の中間アクティベーションで安全関連挙動が表現されることが示唆された。
本稿では,全モデル適合度評価を部分的に前進パスに置き換え,遺伝的プロンプト探索ループ内でプローブベースのスコアリングを行う,プローブ誘導型AutoDANについて紹介する。
- 参考スコア(独自算出の注目度): 18.44975629076816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate whether refusal behavior can be predicted from LLM intermediate activations before decoding using linear probes trained on residual stream activations at each transformer block. We find that refusal is linearly decodable well before the final layer, indicating that safety-relevant behavior is represented in intermediate activations before output generation. To test whether this signal is actionable, we introduce Mechanistic AutoDAN, a probe-guided variant of AutoDAN that replaces full-model fitness evaluation with partial forward passes and probe-based scoring inside a genetic prompt search loop. Across the evaluated models, our method achieves attack success rates competitive with vanilla AutoDAN while reducing per-iteration search time by up to 72%, and probe-guided prompts match or exceed AutoDAN's cross-model transfer in several configurations. We further find that the usefulness of probe guidance increases with model scale. Our results show that refusal is not only observable at the output level, but is encoded as a structured and actionable signal in intermediate LLM activations.
- Abstract(参考訳): 本稿では,各変圧器ブロックにおける残留ストリーム活性化を訓練した線形プローブを用いて,LLM中間活性化から拒絶動作を予測できるかどうかを検討する。
その結果, 出力発生前の中間アクティベーションで安全関連挙動が表現されることが示唆された。
この信号が動作可能かどうかを調べるため,遺伝子プロンプト探索ループ内でのフルモデル適合度評価とプローブベースのスコアリングを置き換えた,プローブ誘導型のAutoDANであるMechanistic AutoDANを導入する。
評価モデル全体では,バニラオートダNと競合する攻撃成功率を最大72%削減し,探索誘導プロンプトは複数の構成でオートダNのクロスモデル転送に一致または超過する。
さらに, モデルスケールでプローブガイダンスの有用性が増大することが確認された。
以上の結果から,リファリングは出力レベルで観測可能であるだけでなく,中間LDM活性化における構造的かつ動作可能な信号として符号化されていることがわかった。
関連論文リスト
- Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Robust semi-parametric signal detection in particle physics with classifiers decorrelated via optimal transport [0.1565870461096057]
我々は、信号リッチ化ステップを使用して、信号リッチサンプル上で信号検出テストを行う。
その結果, 脱相関法は中程度の背景不特定性に対して頑健であることが判明した。
我々は、デコレーションと信号の富化が安定的で、堅牢で、有効で、より強力なテストを生み出すと結論付けている。
論文 参考訳(メタデータ) (2024-09-10T10:32:21Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。