論文の概要: Who Transfers Safety? Identifying and Targeting Cross-Lingual Shared Safety Neurons
- arxiv url: http://arxiv.org/abs/2602.01283v1
- Date: Sun, 01 Feb 2026 15:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.694128
- Title: Who Transfers Safety? Identifying and Targeting Cross-Lingual Shared Safety Neurons
- Title(参考訳): 誰が安全を移すか : 言語間共有型安全ニューロンの同定とターゲット化
- Authors: Xianhui Zhang, Chengyu Xie, Linxia Zhu, Yonghui Yang, Weixiang Zhao, Zifeng Cheng, Cong Wang, Fei Shen, Tat-Seng Chua,
- Abstract要約: 言語間共有安全ニューロン(SS-Neurons)は、言語間の安全行動を制御する。
本稿では,言語資源分布とモデルアーキテクチャに基づいて,SS-Neuronsをターゲットにしたニューロン指向のトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 49.772147495578736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual safety remains significantly imbalanced, leaving non-high-resource (NHR) languages vulnerable compared to robust high-resource (HR) ones. Moreover, the neural mechanisms driving safety alignment remain unclear despite observed cross-lingual representation transfer. In this paper, we find that LLMs contain a set of cross-lingual shared safety neurons (SS-Neurons), a remarkably small yet critical neuronal subset that jointly regulates safety behavior across languages. We first identify monolingual safety neurons (MS-Neurons) and validate their causal role in safety refusal behavior through targeted activation and suppression. Our cross-lingual analyses then identify SS-Neurons as the subset of MS-Neurons shared between HR and NHR languages, serving as a bridge to transfer safety capabilities from HR to NHR domains. We observe that suppressing these neurons causes concurrent safety drops across NHR languages, whereas reinforcing them improves cross-lingual defensive consistency. Building on these insights, we propose a simple neuron-oriented training strategy that targets SS-Neurons based on language resource distribution and model architecture. Experiments demonstrate that fine-tuning this tiny neuronal subset outperforms state-of-the-art methods, significantly enhancing NHR safety while maintaining the model's general capabilities. The code and dataset will be available athttps://github.com/1518630367/SS-Neuron-Expansion.
- Abstract(参考訳): マルチリンガル安全性は相変わらず不安定であり、非高リソース(NHR)言語は堅牢な高リソース(HR)言語に比べて脆弱である。
さらに, 言語間表現伝達が観察されたにもかかわらず, 安全アライメントを駆動する神経機構はいまだ不明である。
本稿では,LLMには,言語間での安全行動を協調的に制御する極めて小さな神経サブセットである,言語間共有型安全ニューロン(SS-Neurons)が含まれていることを明らかにする。
まず、モノリンガル安全性ニューロン(MS-Neurons)を同定し、標的の活性化と抑制による安全性拒絶行動における因果的役割を検証した。
我々の言語間分析では、SS-NeuronsをHR言語とNHR言語間で共有されるMS-Neuronsのサブセットとして同定し、HRドメインからNHRドメインへの安全機能伝達のブリッジとして機能する。
これらのニューロンの抑制はNHR言語間の同時的安全性低下を引き起こすが、強化は言語間防御の整合性を改善する。
これらの知見に基づいて,言語資源分布とモデルアーキテクチャに基づくSS-Neuronsをターゲットとした,単純なニューロン指向のトレーニング戦略を提案する。
実験により、この小さなニューロンサブセットの微調整は最先端の手法よりも優れており、モデルの一般的な能力を維持しながら、NHRの安全性を大幅に向上することが示された。
コードとデータセットはhttps://github.com/1518630367/SS-Neuron-Expansionで公開される。
関連論文リスト
- Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models [54.10540442330978]
既存のベンチマークは、典型的にはマルチリンガルだがテキストのみ、あるいはマルチモーダルだがモノリンガルである。
近年の多言語的赤チームの取り組みは、画像に有害なプロンプトを与えるが、タイポグラフィースタイルの視覚に強く依存している。
10言語にまたがる100,440の有害な画像テキストペアのベンチマークを導入し、明示的に画像支配サブセットとテキスト支配サブセットに分割する。
論文 参考訳(メタデータ) (2026-01-30T09:18:13Z) - Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks [22.059668583508365]
本研究では,FGSN (Fen-Grained Safety Neurons) をトレーニング不要連続投射法で提案し,微調整安全性リスクの低減を図る。
FGSNは本質的に、安全層と神経細胞の間のマルチスケールの相互作用を統合し、スペーサーとより精密な安全ニューロンを局在させる。
論文 参考訳(メタデータ) (2025-08-08T03:20:25Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Language-specific Neurons Do Not Facilitate Cross-Lingual Transfer [21.205821852762362]
言語固有のニューロンを識別する既存の技術は、低リソース言語の言語間タスク性能を向上させるために利用することができる。
このようなニューロン特異的な介入は、下流タスクにおいて言語横断的な改善をもたらすには不十分である。
論文 参考訳(メタデータ) (2025-03-21T18:08:11Z) - Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons [57.07507194465299]
大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤報を発生させるなどの安全性リスクが生じる。
安全行動の責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。
モデル安全性に対する因果的影響を評価するために,これらのニューロンの特定と動的アクティベーションパッチを対比した推論時アクティベーションを提案する。
論文 参考訳(メタデータ) (2024-06-20T09:35:22Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [85.0284555835015]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野に革命をもたらした。
多言語環境でのLLMの内部動作を探究する研究はほとんどない。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。
攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。
この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文 参考訳(メタデータ) (2024-04-03T01:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。