論文の概要: Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment
- arxiv url: http://arxiv.org/abs/2511.06852v3
- Date: Mon, 17 Nov 2025 05:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.563872
- Title: Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment
- Title(参考訳): LLM安全アライメントを適応するための微分方向干渉フレームワーク
- Authors: Peng Zhang, Peijie Sun,
- Abstract要約: 大規模言語モデルには、悪意のある要求を拒否する能力が備わっている。
以前の研究は、この拒絶機構を活性化空間の1つの線形方向としてモデル化していた。
我々は,臨界層における安全アライメントを正確に中和する新しいホワイトボックスフレームワークDBDIを導入する。
- 参考スコア(独自算出の注目度): 7.145846466297704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment instills in Large Language Models (LLMs) a critical capacity to refuse malicious requests. Prior works have modeled this refusal mechanism as a single linear direction in the activation space. We posit that this is an oversimplification that conflates two functionally distinct neural processes: the detection of harm and the execution of a refusal. In this work, we deconstruct this single representation into a Harm Detection Direction and a Refusal Execution Direction. Leveraging this fine-grained model, we introduce Differentiated Bi-Directional Intervention (DBDI), a new white-box framework that precisely neutralizes the safety alignment at critical layer. DBDI applies adaptive projection nullification to the refusal execution direction while suppressing the harm detection direction via direct steering. Extensive experiments demonstrate that DBDI outperforms prominent jailbreaking methods, achieving up to a 97.88\% attack success rate on models such as Llama-2. By providing a more granular and mechanistic framework, our work offers a new direction for the in-depth understanding of LLM safety alignment.
- Abstract(参考訳): LLM(Large Language Models)は、悪意のある要求を拒否する重要な能力である。
以前の研究は、この拒絶機構を活性化空間の1つの線形方向としてモデル化していた。
これは2つの機能的に異なるニューラルプロセス、すなわち害の検出と拒絶の実行を混同する過度な単純化であると仮定する。
本研究では,この単一表現をHarm Detection DirectionとRefusal Execution Directionに分解する。
この細粒度モデルを活用することで、臨界層における安全アライメントを正確に中和する新しいホワイトボックスフレームワークである差分二方向干渉(DBDI)を導入する。
DBDIは、直接ステアリングによる害検出方向を抑えつつ、拒絶実行方向に対して適応的なプロジェクション無効化を施す。
大規模な実験により、DBDIは、Llama-2のようなモデルで97.88 %の攻撃成功率を達成し、著名なジェイルブレイク法より優れていることが示されている。
よりきめ細やかで機械的なフレームワークを提供することで、LLMの安全性を深く理解するための新たな方向性を提供します。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Can Indirect Prompt Injection Attacks Be Detected and Removed? [94.67980597764245]
間接的インジェクション攻撃の検出・除去の可能性について検討した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
論文 参考訳(メタデータ) (2025-02-23T14:02:16Z) - The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions [20.522881564776434]
安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
論文 参考訳(メタデータ) (2025-02-13T06:39:22Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。