論文の概要: LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.12733v2
- Date: Wed, 27 Aug 2025 12:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 14:51:03.055732
- Title: LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models
- Title(参考訳): LinguaSafe: 大規模言語モデルの総合的多言語安全ベンチマーク
- Authors: Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang,
- Abstract要約: 私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
- 参考スコア(独自算出の注目度): 22.273388934888278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The widespread adoption and increasing prominence of large language models (LLMs) in global technologies necessitate a rigorous focus on ensuring their safety across a diverse range of linguistic and cultural contexts. The lack of a comprehensive evaluation and diverse data in existing multilingual safety evaluations for LLMs limits their effectiveness, hindering the development of robust multilingual safety alignment. To address this critical gap, we introduce LinguaSafe, a comprehensive multilingual safety benchmark crafted with meticulous attention to linguistic authenticity. The LinguaSafe dataset comprises 45k entries in 12 languages, ranging from Hungarian to Malay. Curated using a combination of translated, transcreated, and natively-sourced data, our dataset addresses the critical need for multilingual safety evaluations of LLMs, filling the void in the safety evaluation of LLMs across diverse under-represented languages from Hungarian to Malay. LinguaSafe presents a multidimensional and fine-grained evaluation framework, with direct and indirect safety assessments, including further evaluations for oversensitivity. The results of safety and helpfulness evaluations vary significantly across different domains and different languages, even in languages with similar resource levels. Our benchmark provides a comprehensive suite of metrics for in-depth safety evaluation, underscoring the critical importance of thoroughly assessing multilingual safety in LLMs to achieve more balanced safety alignment. Our dataset and code are released to the public to facilitate further research in the field of multilingual LLM safety.
- Abstract(参考訳): グローバルテクノロジーにおける大規模言語モデル(LLM)の普及と普及は、多種多様な言語的・文化的文脈における安全性の確保に厳格な焦点をあてる必要がある。
LLMの既存の多言語安全評価における包括的評価と多言語安全評価の欠如は、その効果を制限し、堅牢な多言語安全アライメントの開発を妨げる。
この重要なギャップに対処するため,言語的信頼性に注意を向けた総合的多言語安全ベンチマークであるLinguaSafeを紹介した。
LinguaSafeデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されている。
我々のデータセットは、翻訳された、翻訳された、およびネイティブにソースされたデータの組み合わせを用いてキュレーションされ、ハンガリー語からマレー語まで多言語で表される様々な言語にわたるLLMの安全性評価における空白を埋める、LLMの多言語安全評価に対する重要なニーズに対処する。
LinguaSafeは多次元かつきめ細かな評価フレームワークを提供する。
安全性と有用性の評価結果は、類似のリソースレベルを持つ言語であっても、異なるドメインや異なる言語で大きく異なる。
本ベンチマークでは,LLMにおける多言語安全性を徹底的に評価し,よりバランスのとれた安全性アライメントを実現することの重要性を強調し,詳細な安全性評価のための総合的な指標を提供する。
我々のデータセットとコードは、多言語LLM安全性の分野におけるさらなる研究を促進するために、一般に公開されている。
関連論文リスト
- The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It [21.6479207553511]
私たちは、2020年から2024年にかけての300近い出版物を、主要なNLPカンファレンスや*ACLのワークショップでレビューします。
英語以外の言語が独立した言語として研究されることはめったになく、英語の安全研究が言語ドキュメントの実践に乏しいことを観察する。
我々の調査と提案された方向性に基づいて、この分野は、多様な世界人口に対するより堅牢で包括的なAI安全プラクティスを開発することができる。
論文 参考訳(メタデータ) (2025-05-30T01:32:44Z) - MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - PolyGuard: A Multilingual Safety Moderation Tool for 17 Languages [27.318299273902984]
PolyGUARDは、LLM(Large Language Models)世代を保護するための、最先端の多言語安全モデルである。
これまでに17言語にまたがる190万のサンプルを含む、最大規模の多言語安全訓練コーパスで訓練されている。
PolyGUARDPROMPTSは、安全ガードレールの評価のための29Kサンプルを用いた高品質な多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-04-06T06:09:21Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文 参考訳(メタデータ) (2024-07-10T03:26:15Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。