論文の概要: NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.21053v1
- Date: Tue, 29 Apr 2025 05:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 23:58:44.564781
- Title: NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models
- Title(参考訳): NeuRel-Attack:大規模言語モデルにおける安全性障害のためのニューロン再学習
- Authors: Yi Zhou, Wenpeng Xing, Dezhang Kong, Changting Lin, Meng Han,
- Abstract要約: 大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.630626774362606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in large language models (LLMs) is achieved through fine-tuning mechanisms that regulate neuron activations to suppress harmful content. In this work, we propose a novel approach to induce disalignment by identifying and modifying the neurons responsible for safety constraints. Our method consists of three key steps: Neuron Activation Analysis, where we examine activation patterns in response to harmful and harmless prompts to detect neurons that are critical for distinguishing between harmful and harmless inputs; Similarity-Based Neuron Identification, which systematically locates the neurons responsible for safe alignment; and Neuron Relearning for Safety Removal, where we fine-tune these selected neurons to restore the model's ability to generate previously restricted responses. Experimental results demonstrate that our method effectively removes safety constraints with minimal fine-tuning, highlighting a critical vulnerability in current alignment techniques. Our findings underscore the need for robust defenses against adversarial fine-tuning attacks on LLMs.
- Abstract(参考訳): 大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本研究では, 安全性の制約を負うニューロンを同定し, 修正することにより, 脱アライメントを誘導する新しいアプローチを提案する。
本手法は, 有害かつ無害な入力の識別に重要なニューロンを検出するために, 有害かつ無害なプロンプトに応答して活性化パターンを検査するニューロン活性化分析, 安全アライメントに責任があるニューロンを系統的に同定する類似性に基づくニューロン同定, 選択したニューロンを微調整して, 従来制限されていた応答を再現する神経除去のためのニューロン再学習の3段階からなる。
実験により,本手法は最小限の微調整で安全性の制約を効果的に除去し,現行のアライメント技術において重大な脆弱性を浮き彫りにすることを示した。
以上の結果から,LSMに対する敵の微調整攻撃に対する堅牢な防御の必要性が示唆された。
関連論文リスト
- Finding Safety Neurons in Large Language Models [44.873565067389016]
大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤情報を生成するなどの安全性のリスクも生じる。
本稿では,機械的解釈可能性の観点から,安全アライメントの内部メカニズムを考察する。
そこで本研究では,これらのニューロンの同定と動的活性化パッチングを対比した生成時活性化法を提案し,その因果効果を評価する。
論文 参考訳(メタデータ) (2024-06-20T09:35:22Z) - Adversarial Defense via Neural Oscillation inspired Gradient Masking [0.0]
スパイクニューラルネットワーク(SNN)は、低消費電力、低レイテンシ、生物学的妥当性のために大きな注目を集めている。
本稿では,SNNの安全性を高めるためにバイオインスパイアされた発振機構を組み込んだ新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-11-04T02:13:19Z) - Defense against Backdoor Attacks via Identifying and Purifying Bad
Neurons [36.57541102989073]
本稿では,感染した神経細胞をニューラルネットワークでマークし,浄化するための新しいバックドアディフェンス法を提案する。
良性サリエンス(良性サリエンス)と呼ばれる新しい測定基準は、感染した神経細胞を、バックドアディフェンスで一般的に使用される指標よりも高い精度で識別することができる。
新しいアダプティブ・レギュラー化(AR)機構は、これらの感染した神経細胞の精製を支援するために提案されている。
論文 参考訳(メタデータ) (2022-08-13T01:10:20Z) - Improving Adversarial Transferability via Neuron Attribution-Based
Attacks [35.02147088207232]
本稿では,より正確なニューロン重要度推定を行う機能レベルアタック(NAA)を提案する。
我々は、オーバーヘッドを大幅に減らすために、ニューロンの属性の近似スキームを導出する。
実験により、最先端のベンチマークに対する我々のアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2022-03-31T13:47:30Z) - DeepSensor: Deep Learning Testing Framework Based on Neuron Sensitivity [20.40306955830653]
既存の試験法は、ニューロンのカバレッジに基づいたきめ細かい基準を提供し、高い探索的な試験レベルに達した。
このギャップを埋めるために、小さな摂動によって活性化値が劇的に変化するニューロンは、誤ったコーナーケースを誘発する傾向が見られた。
そこで我々はDNNのための新しいホワイトボックステストフレームワークを提案し,DeepSensorとして寄贈した。
論文 参考訳(メタデータ) (2022-02-12T16:44:15Z) - Few-shot Backdoor Defense Using Shapley Estimation [123.56934991060788]
我々は、深層ニューラルネットワークに対するバックドア攻撃を軽減するために、Shapley Pruningと呼ばれる新しいアプローチを開発した。
ShapPruningは、感染した数少ないニューロン(全ニューロンの1%以下)を特定し、モデルの構造と正確性を保護する。
様々な攻撃やタスクに対して,本手法の有効性とロバスト性を示す実験を行った。
論文 参考訳(メタデータ) (2021-12-30T02:27:03Z) - Fight Perturbations with Perturbations: Defending Adversarial Attacks via Neuron Influence [14.817015950058915]
一般敵攻撃に対する新たな防御法として,emphNeuron-level Inverse Perturbation (NIP)を提案する。
良性例からニューロンの影響を計算し、逆摂動を発生させて入力例を変更する。
論文 参考訳(メタデータ) (2021-12-24T13:37:42Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Artificial Neural Variability for Deep Learning: On Overfitting, Noise
Memorization, and Catastrophic Forgetting [135.0863818867184]
人工ニューラルネットワーク(ANV)は、ニューラルネットワークが自然のニューラルネットワークからいくつかの利点を学ぶのに役立つ。
ANVは、トレーニングデータと学習モデルの間の相互情報の暗黙の正則化として機能する。
過度にフィットし、ノイズの記憶をラベル付けし、無視できるコストで破滅的な忘れを効果的に軽減することができる。
論文 参考訳(メタデータ) (2020-11-12T06:06:33Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。