論文の概要: Multilingual Safety Alignment Via Sparse Weight Editing
- arxiv url: http://arxiv.org/abs/2602.22554v1
- Date: Thu, 26 Feb 2026 02:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.49486
- Title: Multilingual Safety Alignment Via Sparse Weight Editing
- Title(参考訳): スパースウェイト編集による多言語安全アライメント
- Authors: Jiaming Liang, Zhaoxin Wang, Handing Wang,
- Abstract要約: スパースウェイト編集に基づくトレーニングフリーアライメントフレームワークを提案する。
我々は、LRLの有害な表現をHRLの堅牢な安全部分空間に最適にマッピングする閉形式解を導出する。
本手法は, LRLにおける攻撃成功率(ASR)を大幅に低減し, 一般的な推論能力への影響を無視する。
- 参考スコア(独自算出の注目度): 11.684928396991742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit significant safety disparities across languages, with low-resource languages (LRLs) often bypassing safety guardrails established for high-resource languages (HRLs) like English. Existing solutions, such as multilingual supervised fine-tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), are computationally expensive and dependent on scarce multilingual safety data. In this work, we propose a novel, training-free alignment framework based on Sparse Weight Editing. Identifying that safety capabilities are localized within a sparse set of safety neurons, we formulate the cross-lingual alignment problem as a constrained linear transformation. We derive a closed-form solution to optimally map the harmful representations of LRLs to the robust safety subspaces of HRLs, while preserving general utility via a null-space projection constraint. Extensive experiments across 8 languages and multiple model families (Llama-3, Qwen-2.5) demonstrate that our method substantially reduces Attack Success Rate (ASR) in LRLs with negligible impact on general reasoning capabilities, all achieved with a single, data-efficient calculation.
- Abstract(参考訳): LLM(Large Language Models)は、低リソース言語(LRL)が英語のような高リソース言語(HRL)で確立された安全ガードレールをバイパスするなど、言語間での安全性の相違が顕著である。
既存のソリューションであるマルチリンガル制御ファインチューニング(SFT)やヒューマンフィードバックからの強化学習(RLHF)は計算コストが高く、マルチリンガル安全性の少ないデータに依存している。
本研究では,Sparse Weight Editingに基づく新しいトレーニングフリーアライメントフレームワークを提案する。
安全能力がスパース・セーフティ・ニューロンの集合内に局所化されていることを確認し,制約付き線形変換として言語間アライメント問題を定式化する。
本研究では, LRL の有害な表現を HRL のロバストな安全部分空間に最適にマッピングし, ヌル空間のプロジェクション制約を通した汎用性を保ちながら, 閉形式解を導出する。
8言語と複数のモデルファミリ(Llama-3, Qwen-2.5)にわたる大規模な実験により, LRLにおける攻撃成功率(ASR)を大幅に低減し, 一般的な推論能力にほとんど影響を与えないことが実証された。
関連論文リスト
- MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。
広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。
現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文 参考訳(メタデータ) (2025-04-03T15:46:46Z) - Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment [9.913748282597856]
ソテリアは、各言語において有害なコンテンツ生成に最も関与する「機能的ヘッド」を最小限に特定し、調整する。
XThreatBenchは、実際のポリシーガイドラインから引き出されたきめ細かい有害な振る舞いをキャプチャする、特殊な多言語データセットである。
主要なオープンソース LLM による実験によると、Soteria は高、中、低リソース言語にわたる安全性の指標を一貫して改善している。
論文 参考訳(メタデータ) (2025-02-16T19:44:01Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。