論文の概要: AfriStereo: A Culturally Grounded Dataset for Evaluating Stereotypical Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.22016v1
- Date: Thu, 27 Nov 2025 01:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.348897
- Title: AfriStereo: A Culturally Grounded Dataset for Evaluating Stereotypical Bias in Large Language Models
- Title(参考訳): AfriStereo:大規模言語モデルにおけるステレオタイプバイアス評価のための文化的根拠付きデータセット
- Authors: Yann Le Beux, Oluchi Audu, Oche D. Ankeli, Dhananjay Balakrishnan, Melissah Weya, Marie D. Ralaiarinosy, Ignatius Ezeani,
- Abstract要約: 既存のAIバイアス評価ベンチマークは、主に西洋の視点を反映している。
AfriStereoは、アフリカ初のオープンソースのステレオタイプデータセットおよび評価フレームワークである。
我々は、性別、民族、宗教、年齢、職業にまたがる1,163のステレオタイプを収集した。
- 参考スコア(独自算出の注目度): 0.4291872480464127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing AI bias evaluation benchmarks largely reflect Western perspectives, leaving African contexts underrepresented and enabling harmful stereotypes in applications across various domains. To address this gap, we introduce AfriStereo, the first open-source African stereotype dataset and evaluation framework grounded in local socio-cultural contexts. Through community engaged efforts across Senegal, Kenya, and Nigeria, we collected 1,163 stereotypes spanning gender, ethnicity, religion, age, and profession. Using few-shot prompting with human-in-the-loop validation, we augmented the dataset to over 5,000 stereotype-antistereotype pairs. Entries were validated through semantic clustering and manual annotation by culturally informed reviewers. Preliminary evaluation of language models reveals that nine of eleven models exhibit statistically significant bias, with Bias Preference Ratios (BPR) ranging from 0.63 to 0.78 (p <= 0.05), indicating systematic preferences for stereotypes over antistereotypes, particularly across age, profession, and gender dimensions. Domain-specific models appeared to show weaker bias in our setup, suggesting task-specific training may mitigate some associations. Looking ahead, AfriStereo opens pathways for future research on culturally grounded bias evaluation and mitigation, offering key methodologies for the AI community on building more equitable, context-aware, and globally inclusive NLP technologies.
- Abstract(参考訳): 既存のAIバイアス評価ベンチマークは、西欧の視点を主に反映し、アフリカのコンテキストを過小評価し、さまざまなドメインにわたるアプリケーションにおいて有害なステレオタイプを可能にする。
このギャップに対処するため、我々はAfriStereoを紹介した。AfriStereoは、アフリカ初のオープンソースのステレオタイプデータセットと、地域社会文化の文脈を基盤とした評価フレームワークである。
セネガル、ケニア、ナイジェリアにおけるコミュニティの取り組みを通じて、私たちは性別、民族、宗教、年齢、職業にまたがる1,163のステレオタイプを収集しました。
マイクロショットプロンプトとループ内検証を用いて,5000組以上のステレオタイプ・アンテロタイプペアにデータセットを拡張した。
意味的クラスタリングと手作業によるアノテーションを通じて、文化的な情報を得たレビュアーによってエントリが検証された。
言語モデルの予備的な評価は、11モデルのうち9モデルが統計的に有意なバイアスを示しており、バイアス優先比(BPR)は0.63から0.78(p <= 0.05)の範囲であり、特に年齢、職業、性別の異なるステレオタイプに対する体系的な嗜好を示す。
ドメイン固有のモデルは、セットアップのバイアスが弱くなり、タスク固有のトレーニングがいくつかの関連を緩和する可能性があることを示唆している。
今後、AfriStereoは文化に根ざしたバイアス評価と緩和に関する今後の研究の道を開き、AIコミュニティにとって、より公平で状況に適応し、グローバルに包括的なNLP技術を構築するための重要な方法論を提供する。
関連論文リスト
- Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models [81.45743826739054]
大きな障壁は、LAION-400MのようなWebスケールデータセットにおける人口統計アノテーションの欠如である。
2億7600万以上のバウンディングボックスや、性別や人種/民族ラベルの認識、キャプションの自動生成など、完全なデータセットのための人中心アノテーションを作成します。
それらを用いて、黒人や中東と見なされる男性や個人と犯罪に関連する負のコンテンツとの不均等な結びつきなど、人口不均衡や有害な関連を明らかにする。
論文 参考訳(メタデータ) (2025-10-04T07:51:59Z) - IndiCASA: A Dataset and Bias Evaluation Framework in LLMs Using Contrastive Embedding Similarity in the Indian Context [10.90604216960609]
大きな言語モデル(LLM)は、その印象的なコンテキスト理解と生成能力によって、重要なドメイン間で大きな牽引力を得ています。
類似度を埋め込むことにより,微粒なバイアスを捕捉するコントラスト学習を用いて学習したエンコーダに基づく評価フレームワークを提案する。
IndiBiasをベースとしたコンテキストアライメントされたステレオタイプとアンチステレオタイプ) は,5つの人口動態軸にまたがる2,575の人文から構成される。
論文 参考訳(メタデータ) (2025-10-03T06:03:26Z) - SESGO: Spanish Evaluation of Stereotypical Generative Outputs [1.1549572298362782]
本稿では,多言語大言語モデル(LLM)におけるバイアス評価における限界ギャップについて論じる。
現在の評価は、主に米国英語中心であり、他の言語や文化の文脈で潜在的に危害が及ばないままである。
教科学習における社会的偏見を検出するための,新しい文化的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-03T14:04:51Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Protected group bias and stereotypes in Large Language Models [2.1122940074160357]
本稿では,倫理と公正の領域におけるLarge Language Models(LLM)の振る舞いについて考察する。
マイノリティ化されたグループに偏見はありますが、特に性別やセクシュアリティの領域では、西洋の偏見も見られます。
論文 参考訳(メタデータ) (2024-03-21T00:21:38Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。