論文の概要: Layer-wise Swapping for Generalizable Multilingual Safety
- arxiv url: http://arxiv.org/abs/2601.22620v1
- Date: Fri, 30 Jan 2026 06:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.267267
- Title: Layer-wise Swapping for Generalizable Multilingual Safety
- Title(参考訳): 汎用多言語安全のための層ワイドスワッピング
- Authors: Hyunseo Shin, Wonseok Hwang,
- Abstract要約: 既存の安全データセットは主に英語中心であり、多言語安全アライメントの進歩を制限する。
本稿では、英語の安全専門家から低リソース言語専門家への安全アライメントを追加訓練なしで伝達する安全意識層スワップ手法を提案する。
- 参考スコア(独自算出の注目度): 8.658596218544773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancements of Large Language Models (LLMs), safety risks remain a critical challenge for low-resource languages. Existing safety datasets are predominantly English centric, limiting progress in multilingual safety alignment. As a result, low resource expert models, finetuned on their respective instruction datasets, tend to exhibit higher unsafety rates compared to their high resource counterparts. In this work, we propose a safety aware layer swapping method that transfers safety alignment from an English safety expert to low resource language experts without additional training. To further enhance transfer ability, our method adaptively selects or blends modules based on their degree of specialization. Our approach preserves performance on general language understanding tasks while enhancing safety in the target languages. Experimental results show that the proposed method achieves comparable performance to the language expert on general benchmarks such as MMMLU, BELEBELE, and MGSM, while producing more aligned and less harmful responses on the MultiJail safety benchmark.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩にもかかわらず、安全リスクは低リソース言語にとって重要な課題である。
既存の安全データセットは主に英語中心であり、多言語安全アライメントの進歩を制限する。
その結果、各命令データセットを微調整した低リソースエキスパートモデルでは、高リソースモデルと比較して安全性が低い傾向にある。
本研究では、英語の安全専門家から低リソース言語専門家への安全アライメントを追加トレーニングなしで伝達する安全意識層スワップ方式を提案する。
転送能力を高めるため,本手法はモジュールを適応的に選択またはブレンドする。
提案手法は,汎用言語理解タスクの性能を維持しつつ,対象言語の安全性を向上する。
実験の結果,MMMLU,BELEBELE,MGSMなどの一般的なベンチマークでは,MultiJailの安全性ベンチマークでは,より整合性が高く,有害な応答が得られない。
関連論文リスト
- LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。