論文の概要: Layer-wise Swapping for Generalizable Multilingual Safety
- arxiv url: http://arxiv.org/abs/2601.22620v1
- Date: Fri, 30 Jan 2026 06:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.267267
- Title: Layer-wise Swapping for Generalizable Multilingual Safety
- Title(参考訳): 汎用多言語安全のための層ワイドスワッピング
- Authors: Hyunseo Shin, Wonseok Hwang,
- Abstract要約: 既存の安全データセットは主に英語中心であり、多言語安全アライメントの進歩を制限する。
本稿では、英語の安全専門家から低リソース言語専門家への安全アライメントを追加訓練なしで伝達する安全意識層スワップ手法を提案する。
- 参考スコア(独自算出の注目度): 8.658596218544773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancements of Large Language Models (LLMs), safety risks remain a critical challenge for low-resource languages. Existing safety datasets are predominantly English centric, limiting progress in multilingual safety alignment. As a result, low resource expert models, finetuned on their respective instruction datasets, tend to exhibit higher unsafety rates compared to their high resource counterparts. In this work, we propose a safety aware layer swapping method that transfers safety alignment from an English safety expert to low resource language experts without additional training. To further enhance transfer ability, our method adaptively selects or blends modules based on their degree of specialization. Our approach preserves performance on general language understanding tasks while enhancing safety in the target languages. Experimental results show that the proposed method achieves comparable performance to the language expert on general benchmarks such as MMMLU, BELEBELE, and MGSM, while producing more aligned and less harmful responses on the MultiJail safety benchmark.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩にもかかわらず、安全リスクは低リソース言語にとって重要な課題である。
既存の安全データセットは主に英語中心であり、多言語安全アライメントの進歩を制限する。
その結果、各命令データセットを微調整した低リソースエキスパートモデルでは、高リソースモデルと比較して安全性が低い傾向にある。
本研究では、英語の安全専門家から低リソース言語専門家への安全アライメントを追加トレーニングなしで伝達する安全意識層スワップ方式を提案する。
転送能力を高めるため,本手法はモジュールを適応的に選択またはブレンドする。
提案手法は,汎用言語理解タスクの性能を維持しつつ,対象言語の安全性を向上する。
実験の結果,MMMLU,BELEBELE,MGSMなどの一般的なベンチマークでは,MultiJailの安全性ベンチマークでは,より整合性が高く,有害な応答が得られない。
関連論文リスト
- Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages [8.667909336164465]
大規模言語モデル(LLM)がグローバル・サウスに展開されている。
日々の使用には、低リソース言語、コードミキシング、文化的に特定の規範が含まれる。
我々の目標は、多言語安全性を、未表現領域における適切なAIのアドオンではなく、コア要件とすることです。
論文 参考訳(メタデータ) (2026-02-14T19:56:40Z) - LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment [9.913748282597856]
ソテリアは、各言語において有害なコンテンツ生成に最も関与する「機能的ヘッド」を最小限に特定し、調整する。
XThreatBenchは、実際のポリシーガイドラインから引き出されたきめ細かい有害な振る舞いをキャプチャする、特殊な多言語データセットである。
主要なオープンソース LLM による実験によると、Soteria は高、中、低リソース言語にわたる安全性の指標を一貫して改善している。
論文 参考訳(メタデータ) (2025-02-16T19:44:01Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。