論文の概要: Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment
- arxiv url: http://arxiv.org/abs/2502.11244v1
- Date: Sun, 16 Feb 2025 19:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:05.218246
- Title: Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment
- Title(参考訳): Soteria:多言語安全アライメントのための言語特異的機能パラメータステアリング
- Authors: Somnath Banerjee, Sayan Layek, Pratyush Chatterjee, Animesh Mukherjee, Rima Hazra,
- Abstract要約: ソテリアは、各言語において有害なコンテンツ生成に最も関与する「機能的ヘッド」を最小限に特定し、調整する。
XThreatBenchは、実際のポリシーガイドラインから引き出されたきめ細かい有害な振る舞いをキャプチャする、特殊な多言語データセットである。
主要なオープンソース LLM による実験によると、Soteria は高、中、低リソース言語にわたる安全性の指標を一貫して改善している。
- 参考スコア(独自算出の注目度): 4.368725325557961
- License:
- Abstract: Ensuring consistent safety across multiple languages remains a significant challenge for large language models (LLMs). We introduce Soteria, a lightweight yet powerful strategy that locates and minimally adjusts the "functional heads" most responsible for harmful content generation in each language. By altering only a fraction of parameters, Soteria drastically reduces policy violations without sacrificing overall model performance, even in low-resource settings. To rigorously evaluate our approach, we also present XThreatBench, a specialized multilingual dataset capturing fine-grained harmful behaviors drawn from real policy guidelines. Experiments with leading open-source LLMs (e.g., Llama, Qwen, Mistral) show that Soteria consistently improves safety metrics across high-, mid-, and low-resource languages. These findings highlight a promising path toward scalable, linguistically attuned, and ethically aligned LLMs worldwide.
- Abstract(参考訳): 複数の言語で一貫した安全性を確保することは、大きな言語モデル(LLM)にとって依然として大きな課題である。
Soteriaは軽量で強力な戦略で、各言語で有害なコンテンツ生成に最も責任を負う“機能的ヘッド”を最小限に調整します。
わずかなパラメータだけを変更することで、低リソース設定でも全体のモデルパフォーマンスを犠牲にすることなく、ポリシー違反を大幅に削減できる。
また,本手法を厳格に評価するために,実ポリシーガイドラインから抽出したきめ細かい有害な振る舞いを抽出する,特殊多言語データセットXThreatBenchを提案する。
主要なオープンソースLLM(例えば、Llama、Qwen、Mistral)による実験によると、Soteriaは高、中、低リソース言語にわたる安全性のメトリクスを一貫して改善している。
これらの知見は、スケーラブルで言語的に調整され、倫理的に整合したLLMへの、有望な道のりを示している。
関連論文リスト
- LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps [63.10843814055688]
M-ALERTは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語で大言語モデルの安全性を評価するベンチマークである。
M-ALERTは、ALERTの詳細な分類に従って、言語ごとの高品質なプロンプトが15kあり、合計で75kである。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。
近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。
我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文 参考訳(メタデータ) (2024-10-23T18:27:36Z) - Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文 参考訳(メタデータ) (2024-07-10T03:26:15Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。