論文の概要: Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.05773v1
- Date: Fri, 06 Mar 2026 00:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.77725
- Title: Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models
- Title(参考訳): 行動せずに知る:大規模言語モデルにおける安全機構の分散幾何
- Authors: Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen,
- Abstract要約: 安全性計算は、textit Axis(mathbfv_H$, Knowing''')とtextitExecution Axis(mathbfv_R$, Acting'')の2つの部分空間で動作することを示す。
我々は,この拒絶機構を外科的に破壊することにより,最先端の攻撃成功率を実現するtextbfRefusal Erasure Attack (REA)を提案する。
- 参考スコア(独自算出の注目度): 7.2244242918075825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment is often conceptualized as a monolithic process wherein harmfulness detection automatically triggers refusal. However, the persistence of jailbreak attacks suggests a fundamental mechanistic decoupling. We propose the \textbf{\underline{D}}isentangled \textbf{\underline{S}}afety \textbf{\underline{H}}ypothesis \textbf{(DSH)}, positing that safety computation operates on two distinct subspaces: a \textit{Recognition Axis} ($\mathbf{v}_H$, ``Knowing'') and an \textit{Execution Axis} ($\mathbf{v}_R$, ``Acting''). Our geometric analysis reveals a universal ``Reflex-to-Dissociation'' evolution, where these signals transition from antagonistic entanglement in early layers to structural independence in deep layers. To validate this, we introduce \textit{Double-Difference Extraction} and \textit{Adaptive Causal Steering}. Using our curated \textsc{AmbiguityBench}, we demonstrate a causal double dissociation, effectively creating a state of ``Knowing without Acting.'' Crucially, we leverage this disentanglement to propose the \textbf{Refusal Erasure Attack (REA)}, which achieves State-of-the-Art attack success rates by surgically lobotomizing the refusal mechanism. Furthermore, we uncover a critical architectural divergence, contrasting the \textit{Explicit Semantic Control} of Llama3.1 with the \textit{Latent Distributed Control} of Qwen2.5. The code and dataset are available at https://anonymous.4open.science/r/DSH.
- Abstract(参考訳): 安全アライメントは、しばしばモノリシックなプロセスとして概念化され、有害な検出が自動的に拒絶を引き起こす。
しかし、ジェイルブレイク攻撃の持続性は、基本的な機械的分離を示唆している。
本稿では、安全性計算が2つの異なる部分空間、すなわち \textit{recognition Axis} (\mathbf{v}_H$, ``Knowing'') と \textit{Execution Axis} (\mathbf{v}_R$, ``Acting'') で実行されることを示す。
我々の幾何学的分析は、これらの信号が初期の層における対角的絡み合いから深い層における構造的独立へと移行する「反射-解離」の普遍的な進化を明らかにしている。
これを検証するために, \textit{Double-Difference extract} と \textit{Adaptive Causal Steering} を導入する。
キュレートした \textsc{AmbiguityBench} を用いて、因果二重解離を実証し、効果的に「アクトなしの知識」の状態を生成する。
重要なことは,この不整合を利用して,リファリング機構を外科的に破壊することにより,最先端の攻撃成功率を達成する「textbf{Refusal Erasure Attack (REA)」を提案することである。
さらに、Llama3.1 の \textit{Explicit Semantic Control} と Qwen2.5 の \textit{Latent Distributed Control} を対比して、重要なアーキテクチャの分岐を明らかにする。
コードとデータセットはhttps://anonymous.4open.science/r/DSHで公開されている。
関連論文リスト
- Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads [6.934057947128395]
我々は,注目度の高いジェイルブレイクフレームワークであるtextbfunderlineHad textbfunderlineAttack (textbfSAHA)を提案する。
論文 参考訳(メタデータ) (2026-03-06T00:13:48Z) - Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation [57.427604620940734]
TextscConceptBankは、視覚的証拠とプロンプトの整合性を取り戻すためのフレームワークだ。
我々のアプローチは、クラスワイドなビジュアルプロトタイプによるターゲットドメインの証拠をアンロックし、(textitii)マイニングの代表者はデータドリフト下でのアウトリーチを抑えることをサポートし、(textitiii)コンセプトドリフトの修正のために候補概念を融合させる。
論文 参考訳(メタデータ) (2026-02-06T02:59:11Z) - CuMA: Aligning LLMs with Sparse Cultural Values via Demographic-Aware Mixture of Adapters [32.79229893940699]
textbftextscCuMA(textbfCultural textbfMixture of textbfAdapters)は、textbf条件のキャパシティ分離問題としてアライメントをフレーム化するフレームワークである。
textscCuMAは最先端のパフォーマンスを実現し、密度の高いベースラインとセマンティックのみのMoEを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-08T12:30:43Z) - In-Context Representation Hijacking [15.706479613839967]
Doublespeakは、大規模言語モデルに対するコンテキスト内表現ハイジャック攻撃である。
置換は有害なトークンに対して収束した良性トークンの内部表現につながることを示す。
このセマンティクスが層ごとに出現し、初期層における良性の意味が後層において有害なセマンティクスに収束することを示します。
論文 参考訳(メタデータ) (2025-12-03T13:19:34Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Rectified Diffusion Guidance for Conditional Generation [94.83538269086613]
CFGの背後にある理論を再検討し、不適切な組合せ係数(textiti.e.)が生成分布を期待的にシフトさせることを厳密に確認する。
提案手法は, 強みを考慮すれば, textbftextitform ソリューションが有効であることを示す。
実世界のデータに関する実証的な証拠は、我々の設計と既存の最先端拡散モデルとの整合性を実証している。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - Iterative Sketching for Secure Coded Regression [66.53950020718021]
分散線形回帰を高速化する手法を提案する。
具体的には、方程式の系の基礎をランダムに回転させ、次にサブサンプルブロックを回転させ、情報を同時に確保し、回帰問題の次元を小さくする。
論文 参考訳(メタデータ) (2023-08-08T11:10:42Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。