論文の概要: CREST: Universal Safety Guardrails Through Cluster-Guided Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2512.02711v1
- Date: Tue, 02 Dec 2025 12:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.871434
- Title: CREST: Universal Safety Guardrails Through Cluster-Guided Cross-Lingual Transfer
- Title(参考訳): CREST:クラスタガイドによるクロスリンガル転送によるユニバーサル安全ガードレール
- Authors: Lavish Bansal, Naman Mishra,
- Abstract要約: CRESTはパラメータ効率のよい多言語安全分類モデルであり、0.5Bパラメータしか持たない100言語をサポートする。
13の高リソース言語の戦略的に選択されたサブセットをトレーニングすることで、クラスタベースのクロスランガルトランスファーを利用する。
このアプローチは、低リソース環境での限られたトレーニングデータの課題に対処する。
- 参考スコア(独自算出の注目度): 0.5729426778193399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring content safety in large language models (LLMs) is essential for their deployment in real-world applications. However, existing safety guardrails are predominantly tailored for high-resource languages, leaving a significant portion of the world's population underrepresented who communicate in low-resource languages. To address this, we introduce CREST (CRoss-lingual Efficient Safety Transfer), a parameter-efficient multilingual safety classification model that supports 100 languages with only 0.5B parameters. By training on a strategically chosen subset of only 13 high-resource languages, our model utilizes cluster-based cross-lingual transfer from a few to 100 languages, enabling effective generalization to both unseen high-resource and low-resource languages. This approach addresses the challenge of limited training data in low-resource settings. We conduct comprehensive evaluations across six safety benchmarks to demonstrate that CREST outperforms existing state-of-the-art guardrails of comparable scale and achieves competitive results against models with significantly larger parameter counts (2.5B parameters and above). Our findings highlight the limitations of language-specific guardrails and underscore the importance of developing universal, language-agnostic safety systems that can scale effectively to serve global populations.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるコンテンツ安全性の確保は、現実のアプリケーションへの展開に不可欠である。
しかし、既存の安全ガードレールは、主に高リソース言語に適合しており、低リソース言語で通信する世界の人口の大部分が不足している。
CREST(CRoss-lingual Efficient Safety Transfer、CRoss-lingual Efficient Safety Transfer、CRoss-lingual Efficient Safety Transfer)は、パラメータが0.5Bしか持たない100の言語をサポートするパラメータ効率の良い多言語安全分類モデルである。
13の高リソース言語の戦略的選択されたサブセットをトレーニングすることにより、クラスタベースのクロスランガルトランスファーを数から100の言語から活用し、未確認高リソース言語と低リソース言語の両方に効果的な一般化を可能にする。
このアプローチは、低リソース環境での限られたトレーニングデータの課題に対処する。
我々は、CRESTが既存の最先端ガードレールに匹敵する規模で優れていることを実証するため、6つの安全ベンチマークで包括的な評価を行い、パラメータ数(2.5B以上のパラメータ)がかなり大きいモデルに対して競合的な結果が得られることを実証します。
本研究は, 言語固有のガードレールの限界を浮き彫りにし, グローバルな言語に依存しない安全システムを開発することの重要性を浮き彫りにしている。
関連論文リスト
- LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages [3.7678366606419345]
RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
論文 参考訳(メタデータ) (2025-07-08T13:37:25Z) - MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - PolyGuard: A Multilingual Safety Moderation Tool for 17 Languages [27.318299273902984]
PolyGUARDは、LLM(Large Language Models)世代を保護するための、最先端の多言語安全モデルである。
これまでに17言語にまたがる190万のサンプルを含む、最大規模の多言語安全訓練コーパスで訓練されている。
PolyGUARDPROMPTSは、安全ガードレールの評価のための29Kサンプルを用いた高品質な多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-04-06T06:09:21Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。