論文の概要: Attention Is Where You Attack
- arxiv url: http://arxiv.org/abs/2605.00236v1
- Date: Thu, 30 Apr 2026 21:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.756523
- Title: Attention Is Where You Attack
- Title(参考訳): あなたが襲う場所は注意
- Authors: Aviral Srivastava, Sourav Panda,
- Abstract要約: 我々は、安全クリティカルな注意を識別するホワイトボックスの敵攻撃を導入し、安全関連位置から注意を遠ざける非意味な敵トークンを製作する。
ARAは5個のトークンと500個の最適化ステップを回避し、Mistral-7Bでは36%、LLaMA-3では30%をハームベンチプロンプトで達成した。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-aligned large language models rely on RLHF and instruction tuning to refuse harmful requests, yet the internal mechanisms implementing safety behavior remain poorly understood. We introduce the Attention Redistribution Attack (ARA), a white-box adversarial attack that identifies safety-critical attention heads and crafts nonsemantic adversarial tokens that redirect attention away from safety-relevant positions. Unlike prior jailbreak methods operating at the semantic or output-logit level, ARA targets the geometry of softmax attention on the probability simplex using Gumbel-softmax optimization over targeted heads. Across LLaMA-3-8B-Instruct, Mistral-7B-Instruct-v0.1, and Gemma-2-9B-it, ARA bypasses safety alignment with as few as 5 tokens and 500 optimization steps, achieving 36% ASR on Mistral-7B and 30% on LLaMA-3 against 200 HarmBench prompts, while Gemma-2 remains at 1%. Our principal mechanistic finding is a dissociation between ablation and redistribution: zeroing out the top-ranked safety heads produces at most 1 flip among 39 to 50 baseline refusals, while ARA targeting the corresponding safety-heavy layers flips 72/200 prompts on Mistral-7B and 60/200 on LLaMA-3. This suggests that safety is not localized in these heads as removable components, but emerges from the attention routing they perform. Removing a head allows compensation through the residual stream, while redirecting its attention propagates a corrupted signal downstream.
- Abstract(参考訳): 安全に整合した大規模言語モデルは、有害な要求を拒否するためにRLHFと命令チューニングに依存しているが、安全行動を実装する内部メカニズムはよく理解されていない。
注意再分配攻撃(Attention Redistribution Attack, ARA)は, 安全クリティカルな注意を識別し, 安全関連位置から注意を遠ざける非意味な敵トークンを製作する, ホワイトボックスの敵攻撃である。
従来のジェイルブレイク法とは異なり、ARAはターゲットの頭上でのGumbel-softmax最適化を用いて、確率単純度に基づくソフトマックスアテンションの幾何をターゲットとしている。
LLaMA-3-8B-インストラクタ、Mistral-7B-Instruct-v0.1、Gemma-2-9B-itを横切ると、ARAは5個のトークンと500個の最適化ステップで安全アライメントを回避し、Mistral-7Bでは36%、LLaMA-3では30%、200のHarmBenchプロンプトでは30%、Gemma-2は1%である。
我々の主要なメカニズムは、アブレーションと再分配の解離である: トップランクの安全ヘッドをゼロにすると、39から50のベースラインの拒絶のうち、少なくとも1つのフリップが生成される。
これは、安全が取り外し可能なコンポーネントとしてこれらのヘッドに局所化されるのではなく、それらが実行するアテンションルーティングから現れることを示唆している。
ヘッドの取り外しは残差ストリームを通して補償が可能であり、注意は下流の劣化したシグナルを伝播させる。
関連論文リスト
- Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models [5.937023024175801]
本稿では,階層間隠れ状態軌跡を健康信号として扱う無チューニングランタイムモニタであるLayerwise Convergence Fingerprinting (LCF)を紹介する。
4つのアーキテクチャ(Llama-3-8B、Qwen2.5-7B、Gemma-2-9B、Qwen2.5-14B)をバックドア、ジェイルブレイク、即時注入で評価した。
論文 参考訳(メタデータ) (2026-04-27T14:38:31Z) - Seeing No Evil: Blinding Large Vision-Language Models to Safety Instructions via Adversarial Attention Hijacking [16.208634186675397]
安全アライメント攻撃を回避するために,注意誘導型視覚ジェイルブレイクを提案する。
提案手法はQwen-VLに対して94.4%の攻撃成功率を達成し,40%の繰り返しを削減した。
メカニスティック分析では、安全失明と呼ばれる障害モードが明らかにされている。
論文 参考訳(メタデータ) (2026-04-11T17:33:47Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs [24.327693899810615]
GateBreakerは、トレーニング不要で、軽量で、アーキテクチャに依存しない最初のアタックフレームワークです。
GateBreakerは、現代のMoE LLMの安全アライメントを推論時に妥協する。
本研究により,MoEの安全性はスパースルーティングによって調整された神経細胞の小さなサブセットに集中していることが判明した。
論文 参考訳(メタデータ) (2025-12-24T07:13:24Z) - Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。
Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。
本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文 参考訳(メタデータ) (2025-07-06T12:19:04Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。
我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。