論文の概要: LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.12733v1
- Date: Mon, 18 Aug 2025 08:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.091583
- Title: LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models
- Title(参考訳): LinguaSafe: 大規模言語モデルの総合的多言語安全ベンチマーク
- Authors: Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang,
- Abstract要約: 私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
- 参考スコア(独自算出の注目度): 11.290315602405757
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The widespread adoption and increasing prominence of large language models (LLMs) in global technologies necessitate a rigorous focus on ensuring their safety across a diverse range of linguistic and cultural contexts. The lack of a comprehensive evaluation and diverse data in existing multilingual safety evaluations for LLMs limits their effectiveness, hindering the development of robust multilingual safety alignment. To address this critical gap, we introduce LinguaSafe, a comprehensive multilingual safety benchmark crafted with meticulous attention to linguistic authenticity. The LinguaSafe dataset comprises 45k entries in 12 languages, ranging from Hungarian to Malay. Curated using a combination of translated, transcreated, and natively-sourced data, our dataset addresses the critical need for multilingual safety evaluations of LLMs, filling the void in the safety evaluation of LLMs across diverse under-represented languages from Hungarian to Malay. LinguaSafe presents a multidimensional and fine-grained evaluation framework, with direct and indirect safety assessments, including further evaluations for oversensitivity. The results of safety and helpfulness evaluations vary significantly across different domains and different languages, even in languages with similar resource levels. Our benchmark provides a comprehensive suite of metrics for in-depth safety evaluation, underscoring the critical importance of thoroughly assessing multilingual safety in LLMs to achieve more balanced safety alignment. Our dataset and code are released to the public to facilitate further research in the field of multilingual LLM safety.
- Abstract(参考訳): グローバルテクノロジーにおける大規模言語モデル(LLM)の普及と普及は、多種多様な言語的・文化的文脈における安全性の確保に厳格な焦点をあてる必要がある。
LLMの既存の多言語安全評価における包括的評価と多言語安全評価の欠如は、その効果を制限し、堅牢な多言語安全アライメントの開発を妨げる。
この重要なギャップに対処するため,言語的信頼性に注意を向けた総合的多言語安全ベンチマークであるLinguaSafeを紹介した。
LinguaSafeデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されている。
我々のデータセットは、翻訳された、翻訳された、およびネイティブにソースされたデータの組み合わせを用いてキュレーションされ、ハンガリー語からマレー語まで多言語で表される様々な言語にわたるLLMの安全性評価における空白を埋める、LLMの多言語安全評価に対する重要なニーズに対処する。
LinguaSafeは多次元かつきめ細かな評価フレームワークを提供する。
安全性と有用性の評価結果は、類似のリソースレベルを持つ言語であっても、異なるドメインや異なる言語で大きく異なる。
本ベンチマークでは,LLMにおける多言語安全性を徹底的に評価し,よりバランスのとれた安全性アライメントを実現することの重要性を強調し,詳細な安全性評価のための総合的な指標を提供する。
我々のデータセットとコードは、多言語LLM安全性の分野におけるさらなる研究を促進するために、一般に公開されている。
関連論文リスト
- MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。