論文の概要: Gender Bias in Text: Labeled Datasets and Lexicons
- arxiv url: http://arxiv.org/abs/2201.08675v1
- Date: Fri, 21 Jan 2022 12:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 13:07:27.877734
- Title: Gender Bias in Text: Labeled Datasets and Lexicons
- Title(参考訳): テキストにおけるジェンダーバイアス:ラベル付きデータセットと辞書
- Authors: Jad Doughman, Wael Khreich
- Abstract要約: 性別バイアスの自動検出には、性別バイアスデータセットと語彙の欠如がある。
関連文の収集,注釈付け,拡張によりラベル付きデータセットと網羅的辞書を提供する。
リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language has a profound impact on our thoughts, perceptions, and conceptions
of gender roles. Gender-inclusive language is, therefore, a key tool to promote
social inclusion and contribute to achieving gender equality. Consequently,
detecting and mitigating gender bias in texts is instrumental in halting its
propagation and societal implications. However, there is a lack of gender bias
datasets and lexicons for automating the detection of gender bias using
supervised and unsupervised machine learning (ML) and natural language
processing (NLP) techniques. Therefore, the main contribution of this work is
to publicly provide labeled datasets and exhaustive lexicons by collecting,
annotating, and augmenting relevant sentences to facilitate the detection of
gender bias in English text. Towards this end, we present an updated version of
our previously proposed taxonomy by re-formalizing its structure, adding a new
bias type, and mapping each bias subtype to an appropriate detection
methodology. The released datasets and lexicons span multiple bias subtypes
including: Generic He, Generic She, Explicit Marking of Sex, and Gendered
Neologisms. We leveraged the use of word embedding models to further augment
the collected lexicons. The underlying motivation of our work is to enable the
technical community to combat gender bias in text and halt its propagation
using ML and NLP techniques.
- Abstract(参考訳): 言語は私たちの思考、知覚、ジェンダーの役割の概念に大きな影響を与えます。
したがって、ジェンダー排他的言語は、社会的包摂を促進し、男女平等を達成するための重要なツールである。
したがって、テキスト中のジェンダーバイアスの検出と緩和は、その伝播と社会的意味の停止に寄与する。
しかし、教師付きおよび教師なし機械学習(ML)と自然言語処理(NLP)技術を用いて、性別バイアスの自動検出には、性別バイアスデータセットや語彙が欠如している。
したがって、本研究の主な貢献は、英文における性バイアスの検出を容易にするために、関連文の収集、注釈付け、増補によってラベル付きデータセットと徹底した語彙を公に提供することである。
そこで本研究では,従来提案していた分類の更新版を,構造を再構築し,新しいバイアスタイプを追加し,各バイアスサブタイプを適切な検出手法にマッピングすることで提示する。
リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。
単語埋め込みモデルを用いて収集した語彙をさらに強化した。
我々の研究の根底にある動機は、技術コミュニティがテキストの性別バイアスに対処し、MLとNLP技術を使ってその伝播を止めることである。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - ''Fifty Shades of Bias'': Normative Ratings of Gender Bias in GPT
Generated English Text [11.085070600065801]
言語は、社会的信念システムの顕在化のための強力なツールとして機能する。
ジェンダーバイアスは、私たちの社会でもっとも普及しているバイアスの1つです。
我々は、GPT生成した英語テキストの最初のデータセットを作成し、男女バイアスの規範的評価を行う。
論文 参考訳(メタデータ) (2023-10-26T14:34:06Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Unmasking Contextual Stereotypes: Measuring and Mitigating BERT's Gender
Bias [12.4543414590979]
文脈化された単語の埋め込みは、NLPシステムにおける標準的な埋め込みを置き換えている。
英語とドイツ語の専門職名と性別記述対象語との関係を調べた結果,性別バイアスを測定した。
偏見を測定する手法はドイツ語のような豊かでジェンダーの指標を持つ言語に適していることを示す。
論文 参考訳(メタデータ) (2020-10-27T18:06:09Z) - Investigating Gender Bias in BERT [22.066477991442003]
我々は、感情や感情の強さの予測に関連する5つの下流タスクにおいて、それが引き起こすジェンダーバイアスを分析した。
本稿では,各BERT層に対する1つの主方向という,きめ細かい性別方向を求めるアルゴリズムを提案する。
実験により, 下流タスクにおけるBERT誘発バイアスの低減に成功していることがわかった。
論文 参考訳(メタデータ) (2020-09-10T17:38:32Z) - Gender Stereotype Reinforcement: Measuring the Gender Bias Conveyed by
Ranking Algorithms [68.85295025020942]
本稿では,性別ステレオタイプをサポートする検索エンジンの傾向を定量化するジェンダーステレオタイプ強化(GSR)尺度を提案する。
GSRは、表現上の害を定量化できる情報検索のための、最初の特別に調整された尺度である。
論文 参考訳(メタデータ) (2020-09-02T20:45:04Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。