Fugu-MT 論文翻訳(概要): Multilingual Safety Alignment Via Sparse Weight Editing

論文の概要: Multilingual Safety Alignment Via Sparse Weight Editing

arxiv url: http://arxiv.org/abs/2602.22554v1
Date: Thu, 26 Feb 2026 02:46:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.49486
Title: Multilingual Safety Alignment Via Sparse Weight Editing
Title（参考訳）: スパースウェイト編集による多言語安全アライメント
Authors: Jiaming Liang, Zhaoxin Wang, Handing Wang,
Abstract要約: スパースウェイト編集に基づくトレーニングフリーアライメントフレームワークを提案する。我々は、LRLの有害な表現をHRLの堅牢な安全部分空間に最適にマッピングする閉形式解を導出する。本手法は, LRLにおける攻撃成功率(ASR)を大幅に低減し, 一般的な推論能力への影響を無視する。
参考スコア（独自算出の注目度）: 11.684928396991742
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) exhibit significant safety disparities across languages, with low-resource languages (LRLs) often bypassing safety guardrails established for high-resource languages (HRLs) like English. Existing solutions, such as multilingual supervised fine-tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), are computationally expensive and dependent on scarce multilingual safety data. In this work, we propose a novel, training-free alignment framework based on Sparse Weight Editing. Identifying that safety capabilities are localized within a sparse set of safety neurons, we formulate the cross-lingual alignment problem as a constrained linear transformation. We derive a closed-form solution to optimally map the harmful representations of LRLs to the robust safety subspaces of HRLs, while preserving general utility via a null-space projection constraint. Extensive experiments across 8 languages and multiple model families (Llama-3, Qwen-2.5) demonstrate that our method substantially reduces Attack Success Rate (ASR) in LRLs with negligible impact on general reasoning capabilities, all achieved with a single, data-efficient calculation.
Abstract（参考訳）: LLM(Large Language Models)は、低リソース言語(LRL)が英語のような高リソース言語(HRL)で確立された安全ガードレールをバイパスするなど、言語間での安全性の相違が顕著である。既存のソリューションであるマルチリンガル制御ファインチューニング(SFT)やヒューマンフィードバックからの強化学習(RLHF)は計算コストが高く、マルチリンガル安全性の少ないデータに依存している。本研究では,Sparse Weight Editingに基づく新しいトレーニングフリーアライメントフレームワークを提案する。安全能力がスパース・セーフティ・ニューロンの集合内に局所化されていることを確認し,制約付き線形変換として言語間アライメント問題を定式化する。本研究では, LRL の有害な表現を HRL のロバストな安全部分空間に最適にマッピングし, ヌル空間のプロジェクション制約を通した汎用性を保ちながら, 閉形式解を導出する。 8言語と複数のモデルファミリ(Llama-3, Qwen-2.5)にわたる大規模な実験により, LRLにおける攻撃成功率(ASR)を大幅に低減し, 一般的な推論能力にほとんど影響を与えないことが実証された。

関連論文リスト

Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models [54.10540442330978]
既存のベンチマークは、典型的にはマルチリンガルだがテキストのみ、あるいはマルチモーダルだがモノリンガルである。近年の多言語的赤チームの取り組みは、画像に有害なプロンプトを与えるが、タイポグラフィースタイルの視覚に強く依存している。 10言語にまたがる100,440の有害な画像テキストペアのベンチマークを導入し、明示的に画像支配サブセットとテキスト支配サブセットに分割する。
論文参考訳（メタデータ） (2026-01-30T09:18:13Z)
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文参考訳（メタデータ） (2025-05-26T08:25:25Z)
MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。 RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文参考訳（メタデータ） (2025-05-22T16:24:51Z)
MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。素早い分類のための多言語ガードレールを提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文参考訳（メタデータ） (2025-04-03T15:46:46Z)
Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment [9.913748282597856]
ソテリアは、各言語において有害なコンテンツ生成に最も関与する「機能的ヘッド」を最小限に特定し、調整する。 XThreatBenchは、実際のポリシーガイドラインから引き出されたきめ細かい有害な振る舞いをキャプチャする、特殊な多言語データセットである。主要なオープンソース LLM による実験によると、Soteria は高、中、低リソース言語にわたる安全性の指標を一貫して改善している。
論文参考訳（メタデータ） (2025-02-16T19:44:01Z)
One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文参考訳（メタデータ） (2024-05-29T22:12:52Z)
The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文参考訳（メタデータ） (2024-01-23T23:12:09Z)
All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-10-02T05:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。