論文の概要: NeuroStrike: Neuron-Level Attacks on Aligned LLMs
- arxiv url: http://arxiv.org/abs/2509.11864v1
- Date: Mon, 15 Sep 2025 12:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.281858
- Title: NeuroStrike: Neuron-Level Attacks on Aligned LLMs
- Title(参考訳): ニューロストライク:LLMのニューロンレベル攻撃
- Authors: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Maximilian Thang, Stjepan Picek, Ahmad-Reza Sadeghi,
- Abstract要約: 安全性の整合性は、大規模言語モデルの倫理的展開に不可欠である。
現在のアライメント技術は試行錯誤に依存しており、モデル全体の一般化性が欠如しており、スケーラビリティと信頼性に制約されている。
本稿では,新規で汎用的な攻撃フレームワークであるNeuroStrikeについて述べる。
- 参考スコア(独自算出の注目度): 22.958975706403105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment is critical for the ethical deployment of large language models (LLMs), guiding them to avoid generating harmful or unethical content. Current alignment techniques, such as supervised fine-tuning and reinforcement learning from human feedback, remain fragile and can be bypassed by carefully crafted adversarial prompts. Unfortunately, such attacks rely on trial and error, lack generalizability across models, and are constrained by scalability and reliability. This paper presents NeuroStrike, a novel and generalizable attack framework that exploits a fundamental vulnerability introduced by alignment techniques: the reliance on sparse, specialized safety neurons responsible for detecting and suppressing harmful inputs. We apply NeuroStrike to both white-box and black-box settings: In the white-box setting, NeuroStrike identifies safety neurons through feedforward activation analysis and prunes them during inference to disable safety mechanisms. In the black-box setting, we propose the first LLM profiling attack, which leverages safety neuron transferability by training adversarial prompt generators on open-weight surrogate models and then deploying them against black-box and proprietary targets. We evaluate NeuroStrike on over 20 open-weight LLMs from major LLM developers. By removing less than 0.6% of neurons in targeted layers, NeuroStrike achieves an average attack success rate (ASR) of 76.9% using only vanilla malicious prompts. Moreover, Neurostrike generalizes to four multimodal LLMs with 100% ASR on unsafe image inputs. Safety neurons transfer effectively across architectures, raising ASR to 78.5% on 11 fine-tuned models and 77.7% on five distilled models. The black-box LLM profiling attack achieves an average ASR of 63.7% across five black-box models, including the Google Gemini family.
- Abstract(参考訳): 安全性の整合性は、大規模言語モデル(LLM)の倫理的展開に不可欠であり、有害または非倫理的なコンテンツの生成を避けるための指針となる。
人間のフィードバックから指導された微調整や強化学習のような現在のアライメント技術は脆弱であり、慎重に製作された敵のプロンプトによってバイパスすることができる。
残念なことに、このような攻撃は試行錯誤に依存しており、モデル全体の一般化性が欠如しており、スケーラビリティと信頼性に制約されている。
本稿では、アライメント技術によって引き起こされる基本的な脆弱性を利用する、新規で一般化可能な攻撃フレームワークであるNeuroStrikeについて述べる。
ホワイトボックス設定では、NuroStrikeはフィードフォワードアクティベーション分析を通じて安全ニューロンを特定し、安全機構を無効にするための推論中にそれらをプーンする。
ブラックボックス設定では、オープンウェイトサロゲートモデル上で敵のプロンプトジェネレータを訓練し、ブラックボックスやプロプライエタリなターゲットに対してそれらを展開することにより、安全性の高いニューロン伝達性を活用する最初のLSMプロファイリング攻撃を提案する。
主要LLM開発者による20以上のオープンウェイトLLM上でのNeuroStrikeの評価を行った。
標的層内の神経細胞の0.6%未満を除去することにより、NeuroStrikeはバニラの悪意のあるプロンプトのみを用いて平均攻撃成功率76.9%を達成する。
さらに、Neurostrikeは、安全でない画像入力に対して100%のASRを持つ4つのマルチモーダルLCMに一般化する。
安全ニューロンはアーキテクチャ全体にわたって効果的に伝達され、11種類の微調整モデルで78.5%、蒸留された5種類のモデルで77.7%に上昇した。
ブラックボックスのLSMプロファイリング攻撃は、Google Geminiファミリーを含む5つのブラックボックスモデルで平均63.7%のASRを達成する。
関連論文リスト
- Unraveling LLM Jailbreaks Through Safety Knowledge Neurons [26.157477756143166]
本稿では,安全関連知識ニューロンの役割に焦点をあてた新しいニューロンレベルの解釈可能性手法を提案する。
安全性関連ニューロンの活性化の調節は,平均的ASRを97%以上で効果的に制御できることが示唆された。
我々は,モデルロバスト性を改善するために,安全クリティカルニューロンを強化する微調整戦略であるSafeTuningを提案する。
論文 参考訳(メタデータ) (2025-09-01T17:17:06Z) - Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks [22.059668583508365]
本研究では,FGSN (Fen-Grained Safety Neurons) をトレーニング不要連続投射法で提案し,微調整安全性リスクの低減を図る。
FGSNは本質的に、安全層と神経細胞の間のマルチスケールの相互作用を統合し、スペーサーとより精密な安全ニューロンを局在させる。
論文 参考訳(メタデータ) (2025-08-08T03:20:25Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Improving Adversarial Transferability via Neuron Attribution-Based
Attacks [35.02147088207232]
本稿では,より正確なニューロン重要度推定を行う機能レベルアタック(NAA)を提案する。
我々は、オーバーヘッドを大幅に減らすために、ニューロンの属性の近似スキームを導出する。
実験により、最先端のベンチマークに対する我々のアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2022-03-31T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。