論文の概要: SAFARI: A Community-Engaged Approach and Dataset of Stereotype Resources in the Sub-Saharan African Context
- arxiv url: http://arxiv.org/abs/2602.22404v1
- Date: Wed, 25 Feb 2026 20:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.405409
- Title: SAFARI: A Community-Engaged Approach and Dataset of Stereotype Resources in the Sub-Saharan African Context
- Title(参考訳): サファリ:サハラ以南のアフリカにおけるステレオタイプ資源の地域的アプローチとデータセット
- Authors: Aishwarya Verma, Laud Ammah, Olivia Nercy Ndlovu Lucas, Andrew Zaldivar, Vinodkumar Prabhakaran, Sunipa Dev,
- Abstract要約: ステレオタイプリポジトリは、生成的AIモデルの安全性を評価するために重要であるが、現時点では十分なグローバルカバレッジが欠如している。
この研究は、ガーナ、ケニア、ナイジェリア、南アフリカの4つのサブサハラアフリカ諸国にまたがる多言語ステレオタイプ資源を導入している。
- 参考スコア(独自算出の注目度): 10.43559852429736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereotype repositories are critical to assess generative AI model safety, but currently lack adequate global coverage. It is imperative to prioritize targeted expansion, strategically addressing existing deficits, over merely increasing data volume. This work introduces a multilingual stereotype resource covering four sub-Saharan African countries that are severely underrepresented in NLP resources: Ghana, Kenya, Nigeria, and South Africa. By utilizing socioculturally-situated, community-engaged methods, including telephonic surveys moderated in native languages, we establish a reproducible methodology that is sensitive to the region's complex linguistic diversity and traditional orality. By deliberately balancing the sample across diverse ethnic and demographic backgrounds, we ensure broad coverage, resulting in a dataset of 3,534 stereotypes in English and 3,206 stereotypes across 15 native languages.
- Abstract(参考訳): ステレオタイプリポジトリは、生成的AIモデルの安全性を評価するために重要であるが、現時点では十分なグローバルカバレッジが欠如している。
単にデータ量を増やすことよりも、既存の赤字に戦略的に対処し、ターゲット拡大を優先することが不可欠である。
この研究は、ガーナ、ケニア、ナイジェリア、南アフリカの4つのサブサハラアフリカ諸国にまたがる多言語ステレオタイプ資源を導入している。
地域の複雑な言語多様性と伝統的なオリエンティヴに敏感な再現可能な方法論を確立する。
サンプルを様々な民族的背景と人口統計学的背景に意図的にバランスさせることにより、幅広い範囲を確保でき、その結果、英語で3,534のステレオタイプと15の母語で3,206のステレオタイプがデータセット化される。
関連論文リスト
- Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs [32.12545369011503]
DebateBias-8Kは、多言語で議論的な新しいベンチマークで、現実的な生成環境での物語バイアスがどのように現れるかを明らかにする。
私たちのデータセットには、女性の権利、社会経済開発、テロリズム、宗教の4つの重要なドメインにまたがる8,400の構造化された議論のプロンプトが含まれています。
その結果、安全アライメントにもかかわらず、全てのモデルがエンレントステレオタイプを再現していることが判明した。
論文 参考訳(メタデータ) (2025-11-03T03:25:40Z) - Adaptive Data Collection for Latin-American Community-sourced Evaluation of Stereotypes (LACES) [12.636379779655558]
NLPモデルにおける社会的バイアスの評価は、地理的・文化的ギャップによって著しく妨げられている。
既存のベンチマークは圧倒的に英語中心であり、アメリカの人口統計に焦点を当てている。
我々は,ラテンアメリカにおけるコミュニティパートナーシップを通じて開発された,新しい大規模ステレオタイプデータセットを紹介する。
論文 参考訳(メタデータ) (2025-10-28T20:42:14Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Where Are We? Evaluating LLM Performance on African Languages [16.206469767073155]
アフリカにおける豊かな言語遺産は、NLPでは残っていない。
本稿では,アフリカにおける言語景観に関する理論的知見と,サハラ語を用いた経験的評価を統合する。
論文 参考訳(メタデータ) (2025-02-26T21:49:54Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - SeeGULL Multilingual: a Dataset of Geo-Culturally Situated Stereotypes [18.991295993710224]
SeeGULLは、20の言語にまたがって、23のリージョンにわたる人間のアノテーションを備えた、グローバルにスケールした、ソーシャルステレオタイプの多言語データセットである。
論文 参考訳(メタデータ) (2024-03-08T22:09:58Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。