論文の概要: A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.08513v1
- Date: Fri, 08 May 2026 21:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.699752
- Title: A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models
- Title(参考訳): 単一ニューロンは、大言語モデルにおける安全アライメントをバイパスするのに十分である
- Authors: Hamid Kazemi, Atoosa Chegini, Maria Safi,
- Abstract要約: 言語モデルの安全性アライメントは、2つの機械的に異なるシステムを介して機能する。
各システム内の単一ニューロンを標的にすることにより、両方の障害方向を示す。
- 参考スコア(独自算出の注目度): 2.800986906828799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in language models operates through two mechanistically distinct systems: refusal neurons that gate whether harmful knowledge is expressed, and concept neurons that encode the harmful knowledge itself. By targeting a single neuron in each system, we demonstrate both directions of failure -- bypassing safety on explicit harmful requests via suppression, and inducing harmful content from innocent prompts via amplification -- across seven models spanning two families and 1.7B to 70B parameters, without any training or prompt engineering. Our findings suggest that safety alignment is not robustly distributed across model weights but is mediated by individual neurons that are each causally sufficient to gate refusal behavior -- suppressing any one of the identified refusal neurons bypasses safety alignment across diverse harmful requests.
- Abstract(参考訳): 言語モデルの安全アライメントは、有害な知識が表現されるかどうかをゲートする拒絶ニューロンと、有害な知識自体をコードする概念ニューロンという、2つの機械的に異なるシステムを介して機能する。
各システム内の1つのニューロンを標的にすることで、トレーニングやプロンプトエンジニアリングなしで、7つのモデルにまたがる障害の方向、すなわち、抑圧を通じて明白な有害な要求を回避し、増幅によって無害なプロンプトから有害なコンテンツを誘導する、両方の障害の方向を実証する。
我々の研究結果は、安全アライメントはモデルウェイト全体に堅牢に分散するのではなく、個々のニューロンによって媒介され、それぞれがゲートの拒絶行動に十分なので、特定された拒絶ニューロンのどれかが様々な有害な要求に対して安全アライメントを回避していることを示唆している。
関連論文リスト
- Precise Shield: Explaining and Aligning VLLM Safety via Neuron-Level Guidance [64.18179414483966]
実世界のデプロイメントでは、VLLM(Vision-Language Large Models)は、多言語およびマルチモーダル複合攻撃による重要な課題に直面している。
危険入力と良入力のアクティベーションパターンを対比することにより、まず安全ニューロンを識別する2段階のフレームワークであるPrecise Shieldを提案する。
この戦略は多言語および多モーダルの一般化を維持しながら安全性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-10T02:42:52Z) - SafeNeuron: Neuron-Level Safety Alignment for Large Language Models [71.50117566279185]
ネットワーク全体の安全表現を再分配することによって堅牢性を向上させる,ニューロンレベルの安全アライメントフレームワークであるSafeNeuronを提案する。
実験では、SafeNeuronは、ニューロンのプルーニング攻撃に対する堅牢性を大幅に改善し、レッドチームジェネレータとして再利用されるオープンソースモデルのリスクを低減し、一般的な機能を維持する。
論文 参考訳(メタデータ) (2026-02-12T16:40:05Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - NeuroStrike: Neuron-Level Attacks on Aligned LLMs [22.958975706403105]
安全性の整合性は、大規模言語モデルの倫理的展開に不可欠である。
現在のアライメント技術は試行錯誤に依存しており、モデル全体の一般化性が欠如しており、スケーラビリティと信頼性に制約されている。
本稿では,新規で汎用的な攻撃フレームワークであるNeuroStrikeについて述べる。
論文 参考訳(メタデータ) (2025-09-15T12:38:39Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons [57.07507194465299]
大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤報を発生させるなどの安全性リスクが生じる。
安全行動の責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。
モデル安全性に対する因果的影響を評価するために,これらのニューロンの特定と動的アクティベーションパッチを対比した推論時アクティベーションを提案する。
論文 参考訳(メタデータ) (2024-06-20T09:35:22Z) - Defense against Backdoor Attacks via Identifying and Purifying Bad
Neurons [36.57541102989073]
本稿では,感染した神経細胞をニューラルネットワークでマークし,浄化するための新しいバックドアディフェンス法を提案する。
良性サリエンス(良性サリエンス)と呼ばれる新しい測定基準は、感染した神経細胞を、バックドアディフェンスで一般的に使用される指標よりも高い精度で識別することができる。
新しいアダプティブ・レギュラー化(AR)機構は、これらの感染した神経細胞の精製を支援するために提案されている。
論文 参考訳(メタデータ) (2022-08-13T01:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。