論文の概要: Steering in the Shadows: Causal Amplification for Activation Space Attacks in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.17194v1
- Date: Fri, 21 Nov 2025 12:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.009001
- Title: Steering in the Shadows: Causal Amplification for Activation Space Attacks in Large Language Models
- Title(参考訳): シャドウにおけるステアリング:大規模言語モデルにおける活性化空間攻撃に対する因果増幅
- Authors: Zhiyuan Xu, Stanislav Abaimov, Joseph Gardiner, Sana Belguith,
- Abstract要約: 本稿では,デコーダのみの大規模言語モデル(LLM)における中間的アクティベーションが,行動制御のための脆弱な攻撃面を形成することを示す。
我々はこれを、段階的なアクティベーションレベル攻撃であるSensitivity-Scaled Steering (SSS)による攻撃面として活用する。
SSSは,高いコヒーレンスと汎用性を維持しつつ,悪,幻覚,覚醒,情緒に大きな変化をもたらすことを示す。
- 参考スコア(独自算出の注目度): 8.92145245069646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) are typically secured by auditing data, prompts, and refusal policies, while treating the forward pass as an implementation detail. We show that intermediate activations in decoder-only LLMs form a vulnerable attack surface for behavioral control. Building on recent findings on attention sinks and compression valleys, we identify a high-gain region in the residual stream where small, well-aligned perturbations are causally amplified along the autoregressive trajectory--a Causal Amplification Effect (CAE). We exploit this as an attack surface via Sensitivity-Scaled Steering (SSS), a progressive activation-level attack that combines beginning-of-sequence (BOS) anchoring with sensitivity-based reinforcement to focus a limited perturbation budget on the most vulnerable layers and tokens. We show that across multiple open-weight models and four behavioral axes, SSS induces large shifts in evil, hallucination, sycophancy, and sentiment while preserving high coherence and general capabilities, turning activation steering into a concrete security concern for white-box and supply-chain LLM deployments.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、一般的にデータ監査、プロンプト、拒絶ポリシーによって保護され、フォワードパスを実装の詳細として扱う。
本研究では,デコーダのみのLCMにおける中間活性化が,動作制御のための脆弱な攻撃面を形成することを示す。
近年のアテンションシンクと圧縮谷の発見に基づいて, 自己回帰軌道に沿って小さく, 整列した摂動が因果的に増幅される残留流の高利得領域を同定した。
我々はこれを、最も脆弱な層やトークンに限られた摂動予算を集中させるために、アクティベーションレベルの進行的攻撃であるSensitivity-Scaled Steering (SSS)による攻撃面として活用する。
複数のオープンウェイトモデルと4つの行動軸にまたがって、SSSは高いコヒーレンスと汎用性を保ちながら、悪、幻覚、梅毒、感情の大きな変化を誘発し、活性化ステアリングをホワイトボックスとサプライチェーンLLMデプロイメントの具体的なセキュリティ上の問題に転換することを示す。
関連論文リスト
- FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。
この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。
これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文 参考訳(メタデータ) (2025-01-03T07:01:15Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Removing Adversarial Noise in Class Activation Feature Space [160.78488162713498]
クラスアクティベーション機能空間において,自己監視型対人訓練機構を実装することにより,対人雑音の除去を提案する。
クラスアクティベーション機能空間における敵対例と自然な例の間の距離を最小にするために、デノイジングモデルを訓練する。
経験的評価により, 従来の手法と比較して, 敵対的堅牢性が有意に向上できることが示された。
論文 参考訳(メタデータ) (2021-04-19T10:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。