論文の概要: Dataset Creation and Baseline Models for Sexism Detection in Hausa
- arxiv url: http://arxiv.org/abs/2510.27038v1
- Date: Thu, 30 Oct 2025 22:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.927853
- Title: Dataset Creation and Baseline Models for Sexism Detection in Hausa
- Title(参考訳): ハウサにおける性行為検出のためのデータセット作成とベースラインモデル
- Authors: Fatima Adam Muhammad, Shamsuddeen Muhammad Hassan, Isa Inuwa-Dutse,
- Abstract要約: 本研究では、コミュニティエンゲージメント、質的コーディング、データ拡張を通じて開発された最初のハウサ性差別検出データセットを紹介する。
文化的ニュアンスと言語表現について,母国語話者による2段階のユーザスタディを行い,日常の言説の中で性差別がどのように定義され,具体化されているかを検討した。
本研究は, 文化的ニュアンス, 特に明確化検索, 慣用的表現の獲得における課題を浮き彫りにして, 偽陽性の傾向を明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sexism reinforces gender inequality and social exclusion by perpetuating stereotypes, bias, and discriminatory norms. Noting how online platforms enable various forms of sexism to thrive, there is a growing need for effective sexism detection and mitigation strategies. While computational approaches to sexism detection are widespread in high-resource languages, progress remains limited in low-resource languages where limited linguistic resources and cultural differences affect how sexism is expressed and perceived. This study introduces the first Hausa sexism detection dataset, developed through community engagement, qualitative coding, and data augmentation. For cultural nuances and linguistic representation, we conducted a two-stage user study (n=66) involving native speakers to explore how sexism is defined and articulated in everyday discourse. We further experiment with both traditional machine learning classifiers and pre-trained multilingual language models and evaluating the effectiveness few-shot learning in detecting sexism in Hausa. Our findings highlight challenges in capturing cultural nuance, particularly with clarification-seeking and idiomatic expressions, and reveal a tendency for many false positives in such cases.
- Abstract(参考訳): 性差別は、ステレオタイプ、偏見、差別規範を永続させることによって、男女不平等と社会的排除を強化する。
オンラインプラットフォームが様々な性差別を繁栄させる方法を考えると、効果的な性差別の検出と緩和戦略の必要性が高まっている。
性差別検出への計算的アプローチは、高リソース言語で広く行われているが、言語資源や文化の違いが性差別の表現や認識に影響を及ぼす低リソース言語では、進歩は依然として限られている。
本研究では、コミュニティエンゲージメント、質的コーディング、データ拡張を通じて開発された最初のハウサ性差別検出データセットを紹介する。
文化的ニュアンスと言語表現について,母語話者による2段階のユーザスタディ(n=66)を行った。
さらに、従来の機械学習分類器と事前訓練された多言語モデルの両方を用いて実験を行い、ハウサにおける性差別の検出における数ショット学習の有効性を評価した。
本研究は, 文化的ニュアンス, 特に明確化検索, 慣用的表現の獲得における課題を浮き彫りにして, 偽陽性の傾向を明らかにした。
関連論文リスト
- Demographic Biases and Gaps in the Perception of Sexism in Large Language Models [43.77504559722899]
ソーシャルメディアのテキストで性差別を検出するための,様々な大規模言語モデルの能力について検討する。
我々は、モデルに存在する人口統計バイアスを分析し、統計分析を行う。
以上の結果から, LLMは集団の全体的意見を考えるとある程度性差別を検出できるが, 異なる集団間での認識の多様性を正確に再現するものではないことが示唆された。
論文 参考訳(メタデータ) (2025-08-25T17:36:58Z) - EuroGEST: Investigating gender stereotypes in multilingual language models [58.871032460235575]
EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
すべての言語で最強のステレオタイプは、女性が「美」、「共感」、そして「否定」であり、男性は「リーダー」、「強く、タフ」、そして「職業的」であることを示している。
論文 参考訳(メタデータ) (2025-06-04T11:58:18Z) - A multitask learning framework for leveraging subjectivity of annotators to identify misogyny [47.175010006458436]
本研究では,誤識別システムの性能向上を目的としたマルチタスク学習手法を提案する。
6つのプロファイルグループにまたがる性別と年齢を考慮したモデル設計において,アノテータからさまざまな視点を取り入れた。
本研究は、コンテンツモデレーションを推進し、効果的なオンラインモデレーションシステムを構築するための多様な視点を受け入れることの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-22T15:06:08Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic
Specialisation for Chinese Sexism Detection in Social Media [23.246615034191553]
性差別検出のための言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発した。
我々は、高リソース言語(英語)からの性差別のセマンティックリソースを活用し、ターゲット言語(中国語)の事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。
他の専門化アプローチや中国語のベースライン語ベクトルと比較すると,本質的評価と外生的評価の両方において,SexWEsの平均スコアは0.033と0.064である。
論文 参考訳(メタデータ) (2022-11-15T19:00:20Z) - SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection [9.443571652110663]
中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、中国の大型レキシコンSexHateLexを提案する。
SWSRデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリー、(iii)ターゲットタイプなど、さまざまなレベルの粒度のラベルを提供する。
我々は、最先端の機械学習モデルを用いた3つの性差別分類タスクの実験を行う。
論文 参考訳(メタデータ) (2021-08-06T12:06:40Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - "Call me sexist, but...": Revisiting Sexism Detection Using
Psychological Scales and Adversarial Samples [2.029924828197095]
我々は、性差別の異なる側面を心理学的尺度でそれらの実践に基礎を置いて概説する。
このスケールから、ソーシャルメディアにおける性差別のためのコードブックを導き、既存のデータセットや新しいデータセットに注釈を付けるために使用します。
結果は、現在の機械学習モデルは、性差別の非常に狭い言語マーカーの集合を拾い上げ、ドメイン外の例にうまく一般化しないことを示唆している。
論文 参考訳(メタデータ) (2020-04-27T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。