論文の概要: The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages
- arxiv url: http://arxiv.org/abs/2308.16871v1
- Date: Thu, 31 Aug 2023 17:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:43:29.488389
- Title: The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages
- Title(参考訳): ジェンダー・ギャップパイプライン:55言語における性特徴化のためのジェンダー対応多言語パイプライン
- Authors: Benjamin Muller, Belen Alastruey, Prangthip Hansanti, Elahe Kalbassi,
Christophe Ropers, Eric Michael Smith, Adina Williams, Luke Zettlemoyer,
Pierre Andrews and Marta R. Costa-juss\`a
- Abstract要約: 本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
- 参考スコア(独自算出の注目度): 51.2321117760104
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Gender biases in language generation systems are challenging to mitigate. One
possible source for these biases is gender representation disparities in the
training and evaluation data. Despite recent progress in documenting this
problem and many attempts at mitigating it, we still lack shared methodology
and tooling to report gender representation in large datasets. Such
quantitative reporting will enable further mitigation, e.g., via data
augmentation. This paper describes the Gender-GAP Pipeline (for Gender-Aware
Polyglot Pipeline), an automatic pipeline to characterize gender representation
in large-scale datasets for 55 languages. The pipeline uses a multilingual
lexicon of gendered person-nouns to quantify the gender representation in text.
We showcase it to report gender representation in WMT training data and
development data for the News task, confirming that current data is skewed
towards masculine representation. Having unbalanced datasets may indirectly
optimize our systems towards outperforming one gender over the others. We
suggest introducing our gender quantification pipeline in current datasets and,
ideally, modifying them toward a balanced representation.
- Abstract(参考訳): 言語生成システムのジェンダーバイアスは軽減が難しい。
これらのバイアスの原因の1つは、トレーニングおよび評価データにおける性別表現の相違である。
この問題の文書化の最近の進歩と、それを緩和しようとする多くの試みにもかかわらず、大きなデータセットでジェンダー表現を報告するための共有方法論やツールがまだ欠けている。
このような定量的な報告は、例えばデータ拡張によるさらなる緩和を可能にする。
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
wmtトレーニングデータとニュースタスクの開発データで性別表現を報告し,現在のデータが男性表現に偏っていることを確認した。
バランスの取れないデータセットを持つことは、システムを間接的に最適化し、他よりも1つの性別を上回ります。
我々は、現在のデータセットに性別定量化パイプラインを導入し、理想的にはバランスの取れた表現に修正することを提案する。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Gender Bias in Transformer Models: A comprehensive survey [1.1011268090482573]
人工知能(AI)におけるジェンダーバイアスは、個人の生活に深く影響する懸念として浮上している。
本稿では,トランスフォーマーモデルにおけるジェンダーバイアスを言語学的観点から調査する。
論文 参考訳(メタデータ) (2023-06-18T11:40:47Z) - GATE: A Challenge Set for Gender-Ambiguous Translation Examples [0.31498833540989407]
ソースの性別が曖昧である場合、機械翻訳モデルは、通常、ステレオタイプなジェンダーロールにデフォルトされ、有害なバイアスが持続する。
最近の研究は、このような曖昧な入力に対して代替性翻訳を生成する「ジェンダーリフレクタ」の開発に繋がっているが、そのようなシステムは言語に乏しい範囲で悩まされている。
我々は、ジェンダー・あいまいなソース文の言語学的に多様なコーパスであるGATEと、複数の代替ターゲット言語翻訳を提示、リリースする。
論文 参考訳(メタデータ) (2023-03-07T15:23:38Z) - GenderedNews: Une approche computationnelle des \'ecarts de
repr\'esentation des genres dans la presse fran\c{c}aise [0.0]
GenderedNews (urlhttps://gendered-news.imag.fr)は、フランスのオンラインメディアで毎週男女不均衡を計測するオンラインダッシュボードである。
メディアにおけるジェンダーの不平等の定量化には自然言語処理(NLP)手法を用いる。
毎日収集されるデータ(フランスのオンラインニュースメディアの7つの主要タイトル)と、メトリクスの背後にある方法論について説明する。
論文 参考訳(メタデータ) (2022-02-11T15:16:49Z) - Gendered Language in Resumes and its Implications for Algorithmic Bias
in Hiring [0.0]
我々は応募者の性別を分類するために一連のモデルを訓練する。
我々は、履歴書から性別を難読化できるかどうか検討する。
難読化後も履歴書には男女情報が多く存在することが判明した。
論文 参考訳(メタデータ) (2021-12-16T14:26:36Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。