論文の概要: UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages
- arxiv url: http://arxiv.org/abs/2601.12696v1
- Date: Mon, 19 Jan 2026 03:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.744283
- Title: UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages
- Title(参考訳): UbuntuGuard: アフリカの言語でAIの安全性を同等にするための、文化的に取り巻くポリシーベンチマーク
- Authors: Tassallah Abdullahi, Macton Mgonzo, Mardiyyah Oduwole, Paul Okewunmi, Abraham Owodunni, Ritambhara Singh, Carsten Eickhoff,
- Abstract要約: 現在のガーディアンモデルは、主に西洋中心で、高リソース言語に最適化されている。
我々はUbuntuGuardを紹介した。これは155のドメインエキスパートによって書かれた敵クエリから構築された、アフリカ初のポリシーベースの安全ベンチマークだ。
- 参考スコア(独自算出の注目度): 18.40701733030824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current guardian models are predominantly Western-centric and optimized for high-resource languages, leaving low-resource African languages vulnerable to evolving harms, cross-lingual safety failures, and cultural misalignment. Moreover, most guardian models rely on rigid, predefined safety categories that fail to generalize across diverse linguistic and sociocultural contexts. Robust safety, therefore, requires flexible, runtime-enforceable policies and benchmarks that reflect local norms, harm scenarios, and cultural expectations. We introduce UbuntuGuard, the first African policy-based safety benchmark built from adversarial queries authored by 155 domain experts across sensitive fields, including healthcare. From these expert-crafted queries, we derive context-specific safety policies and reference responses that capture culturally grounded risk signals, enabling policy-aligned evaluation of guardian models. We evaluate 13 models, comprising six general-purpose LLMs and seven guardian models across three distinct variants: static, dynamic, and multilingual. Our findings reveal that existing English-centric benchmarks overestimate real-world multilingual safety, cross-lingual transfer provides partial but insufficient coverage, and dynamic models, while better equipped to leverage policies at inference time, still struggle to fully localize African-language contexts. These findings highlight the urgent need for multilingual, culturally grounded safety benchmarks to enable the development of reliable and equitable guardian models for low-resource languages. Our code can be found online.\footnote{Code repository available at https://github.com/hemhemoh/UbuntuGuard.
- Abstract(参考訳): 現在のガーディアンモデルは、主に西洋中心であり、高リソース言語に最適化されており、低リソースのアフリカの言語は、進化する危害、言語横断の安全障害、文化的不整合に弱いままである。
さらに、ほとんどの保護モデルは、様々な言語的・社会文化的文脈にまたがる一般化に失敗する厳格で定義された安全カテゴリーに依存している。
そのため、ロバスト安全性には、ローカルな規範、害シナリオ、文化的な期待を反映したフレキシブルで実行時強化可能なポリシーとベンチマークが必要です。
私たちはUbuntuGuardを紹介します。これは、医療を含むセンシティブな分野にわたって155のドメインエキスパートによって書かれた敵クエリから構築された、アフリカ初のポリシーベースの安全ベンチマークです。
これらの専門家によるクエリから、コンテキスト固有の安全ポリシーと、文化的に根ざしたリスク信号をキャプチャする参照応答を導出し、保護者モデルのポリシー整合性評価を可能にする。
我々は,静的,動的,多言語という3つの異なる変種にまたがる6つの汎用LLMと7つの保護モデルからなる13のモデルを評価した。
その結果、既存の英語中心のベンチマークでは、実世界のマルチリンガル安全性を過大評価し、言語間移動は部分的ではあるが不十分なカバレッジと動的モデルを提供する一方で、推論時にポリシーを活用する能力は優れており、アフリカ語コンテキストの完全ローカライズに苦慮していることが明らかとなった。
これらの知見は、低リソース言語に対する信頼性と等価な保護モデルの開発を可能にするために、多言語、文化的基盤を持つ安全ベンチマークの緊急の必要性を浮き彫りにしている。
私たちのコードはオンラインで見つけることができます。
https://github.com/hemhemoh/UbuntuGuard.orgで公開されている。
関連論文リスト
- Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages [8.667909336164465]
大規模言語モデル(LLM)がグローバル・サウスに展開されている。
日々の使用には、低リソース言語、コードミキシング、文化的に特定の規範が含まれる。
我々の目標は、多言語安全性を、未表現領域における適切なAIのアドオンではなく、コア要件とすることです。
論文 参考訳(メタデータ) (2026-02-14T19:56:40Z) - Improving Methodologies for LLM Evaluations Across Global Languages [19.63570354411416]
このエクササイズは、安全行動が言語によってどのように異なるかを示しています。
また、多言語安全性評価を改善するための洞察も生み出した。
この研究は、先進的なAIシステムの多言語安全テストのための共有フレームワークに向けた最初のステップである。
論文 参考訳(メタデータ) (2026-01-22T07:18:08Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。