論文の概要: UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages
- arxiv url: http://arxiv.org/abs/2601.12696v1
- Date: Mon, 19 Jan 2026 03:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.744283
- Title: UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages
- Title(参考訳): UbuntuGuard: アフリカの言語でAIの安全性を同等にするための、文化的に取り巻くポリシーベンチマーク
- Authors: Tassallah Abdullahi, Macton Mgonzo, Mardiyyah Oduwole, Paul Okewunmi, Abraham Owodunni, Ritambhara Singh, Carsten Eickhoff,
- Abstract要約: 現在のガーディアンモデルは、主に西洋中心で、高リソース言語に最適化されている。
我々はUbuntuGuardを紹介した。これは155のドメインエキスパートによって書かれた敵クエリから構築された、アフリカ初のポリシーベースの安全ベンチマークだ。
- 参考スコア(独自算出の注目度): 18.40701733030824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current guardian models are predominantly Western-centric and optimized for high-resource languages, leaving low-resource African languages vulnerable to evolving harms, cross-lingual safety failures, and cultural misalignment. Moreover, most guardian models rely on rigid, predefined safety categories that fail to generalize across diverse linguistic and sociocultural contexts. Robust safety, therefore, requires flexible, runtime-enforceable policies and benchmarks that reflect local norms, harm scenarios, and cultural expectations. We introduce UbuntuGuard, the first African policy-based safety benchmark built from adversarial queries authored by 155 domain experts across sensitive fields, including healthcare. From these expert-crafted queries, we derive context-specific safety policies and reference responses that capture culturally grounded risk signals, enabling policy-aligned evaluation of guardian models. We evaluate 13 models, comprising six general-purpose LLMs and seven guardian models across three distinct variants: static, dynamic, and multilingual. Our findings reveal that existing English-centric benchmarks overestimate real-world multilingual safety, cross-lingual transfer provides partial but insufficient coverage, and dynamic models, while better equipped to leverage policies at inference time, still struggle to fully localize African-language contexts. These findings highlight the urgent need for multilingual, culturally grounded safety benchmarks to enable the development of reliable and equitable guardian models for low-resource languages. Our code can be found online.\footnote{Code repository available at https://github.com/hemhemoh/UbuntuGuard.
- Abstract(参考訳): 現在のガーディアンモデルは、主に西洋中心であり、高リソース言語に最適化されており、低リソースのアフリカの言語は、進化する危害、言語横断の安全障害、文化的不整合に弱いままである。
さらに、ほとんどの保護モデルは、様々な言語的・社会文化的文脈にまたがる一般化に失敗する厳格で定義された安全カテゴリーに依存している。
そのため、ロバスト安全性には、ローカルな規範、害シナリオ、文化的な期待を反映したフレキシブルで実行時強化可能なポリシーとベンチマークが必要です。
私たちはUbuntuGuardを紹介します。これは、医療を含むセンシティブな分野にわたって155のドメインエキスパートによって書かれた敵クエリから構築された、アフリカ初のポリシーベースの安全ベンチマークです。
これらの専門家によるクエリから、コンテキスト固有の安全ポリシーと、文化的に根ざしたリスク信号をキャプチャする参照応答を導出し、保護者モデルのポリシー整合性評価を可能にする。
我々は,静的,動的,多言語という3つの異なる変種にまたがる6つの汎用LLMと7つの保護モデルからなる13のモデルを評価した。
その結果、既存の英語中心のベンチマークでは、実世界のマルチリンガル安全性を過大評価し、言語間移動は部分的ではあるが不十分なカバレッジと動的モデルを提供する一方で、推論時にポリシーを活用する能力は優れており、アフリカ語コンテキストの完全ローカライズに苦慮していることが明らかとなった。
これらの知見は、低リソース言語に対する信頼性と等価な保護モデルの開発を可能にするために、多言語、文化的基盤を持つ安全ベンチマークの緊急の必要性を浮き彫りにしている。
私たちのコードはオンラインで見つけることができます。
https://github.com/hemhemoh/UbuntuGuard.orgで公開されている。
関連論文リスト
- SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。