論文の概要: Latent-space Attacks for Refusal Evasion in Language Models
- arxiv url: http://arxiv.org/abs/2605.21706v1
- Date: Wed, 20 May 2026 20:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.486033
- Title: Latent-space Attacks for Refusal Evasion in Language Models
- Title(参考訳): 言語モデルにおける遅延空間攻撃
- Authors: Giorgio Piras, Raffaele Mura, Fabio Brau, Maura Pintor, Luca Oneto, Fabio Roli, Battista Biggio,
- Abstract要約: 我々は,リフレクションをリフレクションから分離するよう訓練された線形プローブに対する遅延空間回避攻撃として再放送した。
我々は15の命令調整、マルチモーダル、推論モデルに対して、最先端の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 14.290157825353846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-aligned language models are trained to refuse harmful requests, yet refusal behavior can be suppressed by steering their internal representations. Existing methods do so by ablating a refusal direction from model activations, aiming to remove refusal from the model's residual stream. Despite their empirical success, these methods lack a principled account of the latent-space transformation they induce and why it suppresses refusal. In this work, we recast refusal suppression as a latent-space evasion attack against linear probes trained to separate refused from answered prompts. Under this view, prior work's difference-in-means direction naturally defines such a probe, and its ablation is exactly a projection onto its decision boundary, i.e., a minimum-confidence evasion attack. This perspective not only explains the empirical success of prior work but also admits a key limitation: evasion stops at the decision boundary, motivating the need to push representations further into the compliant region, i.e., where the model answers. We leverage this by proposing a Controlled Latent-space Evasion attack that projects representations past the boundary with an optimized confidence. We achieve state-of-the-art attack success rate across 15 instruction-tuned, multimodal, and reasoning models, outperforming existing refusal-ablation baselines and specialized jailbreak attacks.
- Abstract(参考訳): 安全に配慮した言語モデルは有害な要求を拒否するように訓練されているが、内部表現を操ることで拒否行動を抑制することができる。
既存の方法は、モデルアクティベーションからの拒絶方向を非難し、モデルの残留ストリームからの拒絶を除去することを目的としている。
実証的な成功にもかかわらず、これらの手法は、それらが引き起こす潜在空間変換と、それが拒絶を抑制する理由の原則的な説明を欠いている。
本研究では,リフレクションをリフレクションから分離するために訓練された線形プローブに対する遅延空間回避攻撃として再放送する。
この観点では、先行作業の差分方向は自然にそのようなプローブを定義し、そのアブレーションはその決定境界、すなわち最小信頼回避攻撃への射影である。
この視点は、先行作業の実証的な成功を説明するだけでなく、重要な制限も認める: 回避は決定境界で停止し、表現を従属領域、すなわちモデルが答える領域にさらに押し込む必要性を動機付ける。
我々はこれを、最適化された信頼で境界を越えて表現を投影する制御されたラテント空間の侵入攻撃を提案することで活用する。
我々は15の命令調整、マルチモーダル、推論モデルにおける最先端の攻撃成功率を達成し、既存の拒絶-アブレーションベースラインと特別なジェイルブレイク攻撃を上回った。
関連論文リスト
- Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Adversarial Manipulation of Reasoning Models using Internal Representations [1.308812559547533]
推論モデルは最終的な出力の前にチェーン・オブ・ソート(CoT)トークンを生成する。
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。
我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T20:51:32Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。